| 
			
				| Информация о статье  2024 г.,  Том 29, № 6, с.125-146
Шигаров А.О. Распознавание таблиц неаннотированных PDF-документов на основе использования PDF-специфичных свойствСегодня PDF — это один из наиболее популярных форматов распространения  печатно-ориентированных документов в электронной среде. PDF-документы часто  являются неаннотированными: страницы представлены только низкоуровневыми  инструкциями рендеринга текста и графики, они не сопровождаются аннотацией  своих структурных компонентов (заголовков, абзацев, таблиц и пр.). Автоматическое восстановление такой аннотации может обеспечить доступность структурных  компонентов. Последнее возможно при решении ряда задач, одной из которых  является распознавание таблиц неаннотированных PDF- документов: обнаружение  границ их строк, столбцов и ячеек.   В работе предложен метод распознавания таблиц неаннотированных PDF- документов. В отличие от имеющихся аналогов впервые означенная задача решается  на базе использования PDF-специфичных свойств: порядка вывода текста, позиций перемещения пера и пр. Это позволило адаптировать к поставленной задаче  некоторые известные подходы и методы, изначально ориентированные на растровые изображения и неформатированный текст, включая “кластеризацию слов”,  обнаружение строк rows first, сегментацию пробельного пространства и анализ  компонентов связности. Представленные результаты оценки производительности  показывают эффективность решений, реализующих данный метод.
 Ключевые слова: распознавание таблиц, извлечение таблиц, неструктурированные данные, документные таблицы, анализ компоновки страницы документа
 
 doi: 10.25743/ICT.2024.29.6.008
 
 Библиографическая ссылка:
 Шигаров А.О. Распознавание таблиц неаннотированных PDF-документов на основе использования PDF-специфичных свойств // Вычислительные технологии. 2024. Т. 29. № 6. С. 125-146
 |  
			  |  |  |