Использование нейронных сетей для определения тематических характеристик русских поэтических текстов на основании лексических признаков.

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 11 Апрель 2023

Организация: НГУ (Новосибирск)

Авторы: Каминский Никита Сергеевич

Важной и весьма сложной задачей автоматизации комплексного анализа поэтических текстов является разработка алгоритмов определения их тематических характеристик. Перспективным представляется подход, связанный с использованием методов машинного обучения, прежде всего, нейросетей.
В рамках представленной работы уточнен состав корпуса стихотворений известных русских поэтов о временах года, который выступал в роли обучающей и тестовой выборок в сравнительных экспериментах. Для классификации пейзажной лирики по признаку “время года” использованы различные архитектуры нейронных сетей, в том числе Word2Vec и BERT. Наилучшие результаты были получены с применением BERT. В дальнейшем предполагается провести серию экспериментов с использованием fastText.