Технология извлечения табличной информации из электронных документов разных форматов

(Кандидатская диссертация)

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 16 Ноябрь 2009

Организация: Учреждение Российской академии наук Институт динамики систем и теории управления Сибирского отделения РАН (Иркутск)

Авторы: Шигаров Алексей Олегович

В докладе предлагается технология извлечения табличной информации, содержащейся в виде машиночитаемого текста в электронных документах разных форматов. Предлагаемая технология включает оригинальные модели страницы документа и таблицы, эвристические методы обнаружения, сегментации и анализа таблиц, информационную систему извлечения табличной информации из метафайлов. Предлагаемые модели, методы и система ориентированы на структуру и особенности таблиц из статистических отчетов. Данная технология может использоваться для ввода в базы данных больших объемов табличной информации из электронных статистических отчетов.