Технология извлечения статистических таблиц из электронных документов разных форматов (кандидатская диссертация)
(Представление диссертации на соискание ученой степени кандидата технических наук по специальности: 05.25.05 -- Информационные системы и процессы, правовые аспекты информатики (технические науки) (научный руководитель чл.-к., д.т.н. Бычков И.В.))
Семинар: Информационные технологии
Начало заседания: 14:35
Дата выступления: 2 Июнь 2009
Организация: Институт динамики систем и теории управления СО РАН (Иркутск)
Авторы: Шигаров Алексей Олегович
В докладе предлагается технология извлечения статистических таблиц, содержащихся в виде машиночитаемого текста в электронных документах разных форматов, например, DOC, XLS, PDF, HTML, ASCII-текст. Предлагаемая технология включает оригинальные эвристические методы обнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц, ориентированные на структуру статистических таблиц. Перечисленные методы реализованы в программной системе извлечения статистических таблиц из метафайлов. Данная технология может использоваться для ввода в базы данных больших объемов информации из статистических таблиц, представленных в электронных документах разных форматов.