Разработка и реализация алгоритма кластеризации поэтических текстов на основании лексических признаков с учетом синонимии

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 30 Октябрь 2019

Организация: НГУ

Авторы: Тагирова Елизавета Павловна

Комплексный анализ поэтических текстов включает в себя установление меры близости между стихотворениями. Одной из шкал для их сравнения являются лексические характеристики текста – слова и словосочетания. Для кластеризации поэтических текстов сперва необходимо извлечь эти признаки. При решении данной задачи используется синтаксический анализатор UDPipe, результатом работы которого является дерево зависимостей. На данном этапе разработан алгоритм, осуществляющий извлечение словосочетаний из построенного синтаксического дерева.

Правильность структуры автоматически построенного синтаксического дерева зависит от порядка слов в предложении: чем он ближе к естественному, тем точнее результат. Однако поэтические тексты в большинстве своем отличаются «непрямым» порядком, поэтому необходимо разработать алгоритм для его изменения.

В докладе будет представлен разработанный алгоритм по извлечению словосочетаний, наработки по автоматическому изменению порядка слов в предложении, а также обзор существующих подходов для векторного представления словосочетаний и кластеризации текстов.