Алгоритм извлечения словосочетаний из корпусов поэтических текстов на русском языке

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 11 Март 2020

Организация: НГУ

Авторы: Столбов Никита Станиславович 

В рамках доклада рассматривается алгоритм решения задачи извлечения словосочетаний из поэтических текстов. В связи с тем, что порядок слов в поэтическом тексте, как правило, значительно отличается от грамматического, а синтаксические анализаторы исходят именно из грамматического порядка слов, на первом этапе алгоритма происходит изменение порядка слов в предложениях текста, приближающее его к грамматическому. Далее производится непосредственная работа алгоритма по извлечению словосочетаний (в данный момент для этого используется программный пакет UDPipe). После извлечения словосочетаний из корпуса поэтических текстов предполагается их конкордация и статистический анализ.