Информация о статье

2025 г., Том 30, № 3, с.127-144

Шигаров А.О.

Извлечение реляционных данных из произвольных таблиц электронных документов редактируемых форматов на основе пользовательских правил

Сегодня в мире имеется большое количество реляционных данных, доступных в неструктурированных источниках, а именно в таблицах произвольной формы, являющихся частью электронных документов различных редактируемых форматов. Последние, в отличие от баз данных, предназначены не для того, чтобы быть интерпретируемыми компьютерными программами, а исключительно для понимания человеком. Только будучи приведенными к структурированной форме, они станут доступными для использования в различных приложениях автоматической интерпретации данных.

Настоящая работа посвящена комплексной научной задаче автоматизации процессов извлечения реляционных данных из произвольных таблиц электронных редактируемых документов. Предложен метод решения поставленной задачи на основе пользовательского программирования правил анализа и интерпретации таблиц, приводимых к формату так называемых рабочих книг (Excel/Sheets). Впервые такие правила отделены от применяемых моделей представления и алгоритмов обработки, при этом обеспечена поддержка произвольности структуры таблиц, а именно пользовательской компоновки, структурированности ячеек и иерархичности заголовков. Выполненная оценка производительности решений, реализованных на основе предлагаемого метода, показывает высокую эффективность их применения.


Ключевые слова: автоматизированное понимание таблиц, анализ и интерпретация таблиц, извлечение данных, неструктурированные данные, документные таблицы

doi: 10.25743/ICT.2025.30.3.010

Библиографическая ссылка:
Шигаров А.О. Извлечение реляционных данных из произвольных таблиц электронных документов редактируемых форматов на основе пользовательских правил // Вычислительные технологии. 2025. Т. 30. № 3. С. 127-144
Главная| Цели| Редколлегия| Содержание| Поиск| Подписка| Правила| Контакты
ISSN 1560-7534
© 2025 ФИЦ ИВТ, Новосибирск