Модели определения тем текстов, основанные на графах, и их применение для решения задач автореферирования

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 17 Октябрь 2018

Организация: ИСИ СО РАН

Авторы: Бакиева А.М.

В работе описан новый метод автоматического реферирования текстов. На основе предложенного метода создана система, позволяющая получать краткие аннотации научно-технических текстов и определять их темы. Процесс реферирования состоит из пяти основных шагов: предобработка, риторический анализ и преобразование текста, оценка весов, выбор предложений и сглаживание.

Предлагаемый метод формирует аннотацию на основе наиболее значимых предложений исходного документа. Значимость предложений частично определяется в процессе риторического анализа, который выполняется с помощью дискурсивных маркеров и коннекторов. Также учитываются ключевые слова, многословные термины и некоторые специальные слова, которые часто встречаются в научно-технических текстах. Для извлечения ключевых слов и определения тем текста применялась аддитивная регуляризация тематических моделей (АРТМ).