Программные средства морфологического анализа текстов на русском языке

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 9 Декабрь 2020

Организация: НГУ

Авторы: Суворов Виктор

Морфологический анализ (токенизация, лемматизация, частеречная размента, и т.д.) является первой ступенью обработки данных на естественном языке в большинстве высокоуровневых приложений. В докладе представлен обзор нескольких из наиболее часто применяемых программных средств морфологического анализа текстов на русском языке, которые доступны под открытой или некоммерческой лицензией в качестве библиотек для языка Python: MyStem, pymorphy2, и UDPipe.