Разработка и реализация веб-приложения для пакетной выгрузки данных и метаданных корпусов поэтических текстов

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 18 Март 2020

Организация: НГУ

Авторы: Шашок Наталья Александровна

В процессе использования поэтических текстов, взятых из внешнего источника — электронных научных изданий фундаментальной электронной библиотеки (feb-web.ru) — возникает проблема отсутствия программного интерфейса для пакетной выгрузки материалов с ресурса (данных и метаданных), готовых для обработки системой комплексного анализа поэтических текстов. В докладе  обсуждаются алгоритмы построения карты данного электронного ресурса, извлечения поэтических текстов и их метаданных, их очистки от «шума», такого как сноски, примечания и теги, а также выбор наиболее важных метаданных для дальнейшего использования и внесения в базу данных системы.