Разработка и реализация алгоритма составления словарей словосочетаний для корпусов поэтических текстов на русском языке

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 8 Апрель 2020

Организация: НГУ

Авторы: Столбов Никита Станиславович

В докладе рассматривается задача составления статистических словарей словосочетаний, которые дают гораздо лучшее представление о технике конкретного автора, чем словари отдельных слов. В случае текстов на русском языке нахождение словосочетаний является более сложной задачей, чем, например, для текстов на английском или каком-либо другом языке, в которых имеет место строгий порядок слов в предложении. Целью данной работы является разработка и реализация алгоритма поиска полного набора словосочетаний для корпусов поэтических текстов на русском языке. Предлагается следующая последовательность действий для выполнения поставленной задачи:

1. Изменение порядка слов в предложениях таким образом, чтобы он был наиболее приближен к грамматическому;

2. Применение алгоритма выделения словосочетаний из полученного текста.

В итоге планируется разработка программного приложения для последующего использования экспертами-филологами при составлении словарей словосочетаний: как по литературным сборникам отдельных поэтов, так и по определенным литературным направлениям.