Сравнительный анализ значимости синтаксических признаков текста при оценке его сложности

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 14 Март 2023

Организация: НГУ

Авторы: Смаль Иван Андреевич

В докладе представлены результаты исследования возможной точности предсказания сложности текста на русском языке методами градиентного бустинга и случайного леса с использованием синтаксических признаков. Работа проводилась на двух корпусах текстов – художественной и учебной литературы. Анализ показывает, что использования только синтаксических характеристик текста недостаточно для выявления сложности его понимания. Для текстов разных стилей наиболее значимые признаки различны: для художественной литературы самый значимый признак – среднее количество зависимостей “conjunction”, для учебной литературы – среднее количество зависимостей “nominal modifier” и “adjective modifier”. В дальнейшем предполагается построение более сложных моделей с использованием также лексических признаков.