Информация о статье

2008 г., Том 13, Спец. выпуск, с.93-101

Хмельнов А.Е., Шигаров А.О.

Метод извлечения таблиц из неформатированного текста

Извлечение таблиц из документов является одной из задач, решаемых в системах анализа и обработки документов. Существующие подходы к решению этой проблемы ориентируются на определенные среды и форматы представления документов. В данной работе предлагается эвристический метод извлечения таблиц из неформатированного текста. Предлагаемый метод использует особенности статистических таблиц и может быть применен к таблицам с подобной структурой. Кроме того, в методе предлагается модель для промежуточного представления таблиц, которую можно преобразовать к отношению реляционной модели.

[полный текст]
Ключевые слова: Анализ и обработка документов, извлечение информации, извлечение таблиц из документов

Библиографическая ссылка:
Хмельнов А.Е., Шигаров А.О. Метод извлечения таблиц из неформатированного текста // Вычислительные технологии. 2008. Т. 13. Специальный выпуск 1: Материалы XII Байкальской всероссийской конференции с международным участием "Информационные и математические технологии в науке и управлении", 2-11 июля 2007 г., Иркутск. С. 93-101
Главная| Цели| Редколлегия| Содержание| Поиск| Подписка| Правила| Контакты
ISSN 1560-7534
© 2024 ФИЦ ИВТ, Новосибирск