Выделение словосочетаний из текста на естественном языке

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 20 Март 2019

Организация: ИВТ СО РАН

Авторы: Содбоев Матвей Константинович

В работе представлены технологии автоматического извлечения словосочетаний и предложных групп из текстов. Проведен сравнительный анализ данных систем, среди которых выделен наиболее перспективный — “Tomita Parser”. Данные для тестирования подготавливались вручную.

В дальнейшем “Tomita Parser” будет интегрироваться с системой комплексного анализа русских поэтических текстов. Процесс анализа состоит из трех основных модулей: структурный, семантический и прагматический. Извлечение словосочетаний относится к  семантическому анализу.

Предлагаемый метод использует контекстно-свободные грамматики для описания правил, на основе которых извлекаются словосочетания. Сами правила составляются на формальном языке.