Методы кластеризации корпусов русских поэтических текстов

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 23 Ноябрь 2021

Организация: ММФ НГУ (Новосибирск)

Авторы: Суворов Виктор

В докладе представлен обзор наиболее часто используемых методов кластеризации, применимых к задаче кластеризации текстовых документов, в частности русских поэтических текстов. Рассмотрены метод k-средних, агломеративные методы и сдвиг среднего значения. Обсуждаются способы нахождения оптимального числа кластеров. Приведены первичные численные эксперименты с корпусом стихотворений А.С. Пушкина.