Технология извлечения статистических таблиц из электронных документов разных форматов (кандидатская диссертация)

(Представление диссертации на соискание ученой степени кандидата технических наук по специальности: 05.25.05 -- Информационные системы и процессы, правовые аспекты информатики (технические науки) (научный руководитель чл.-к., д.т.н. Бычков И.В.))

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 2 Июнь 2009

Организация: Институт динамики систем и теории управления СО РАН (Иркутск)

Авторы: Шигаров Алексей Олегович

В докладе предлагается технология извлечения статистических таблиц, содержащихся в виде машиночитаемого текста в электронных документах разных форматов, например, DOC, XLS, PDF, HTML, ASCII-текст. Предлагаемая технология включает оригинальные эвристические методы обнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц, ориентированные на структуру статистических таблиц. Перечисленные методы реализованы в программной системе извлечения статистических таблиц из метафайлов. Данная технология может использоваться для ввода в базы данных больших объемов информации из статистических таблиц, представленных в электронных документах разных форматов.