Генерация синтаксически размеченного корпуса и векторное представление документов в рамках задачи кластерного анализа поэтических текстов

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 26 Февраль 2020

Организация: НГУ

Авторы: Тагирова Елизавета Павловна

Кластеризация поэтических текстов осуществляется на основе лексических признаков, в частности, словосочетаний. Для их извлечения используется синтаксический парсер, точность работы которого неудовлетворительна в случае поэзии ввиду обучающей выборки. В докладе будет представлен алгоритм генерации корпуса для обучения существующих синтаксических анализаторов при работе с поэтическими текстами. Также будет рассмотрена проблема векторного представления словосочетаний и текстов в применении к поэтическим формам.