Программная система «Стемматизация и генерация словоформ казахского языка»

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 13 Ноябрь 2018

Организация: ИВТ СО РАН, НГУ

Авторы: член-корр. РАН Федотов А.М., д.т.н. Барахнин В.Б., к.филол.н. Кожемякина О.Ю., Бакиева А.М., Лукпанова Л.Х.

Программная система решает задачу стемматизации и генерации словоформ изменяемых частей речи казахского языка: существительных, прилагательных и глаголов. В основе программной системы лежат оригинальные алгоритмы синтеза и анализа словоформ казахского языка, базирующиеся на принципах разбиения слов на флективные классы.  С использованием  предложенных алгоритмов создана база данных PostgreSQL, содержащая в себе все виды аффиксов казахского языка  (в общей сложности более 5500).

Разработанные алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, системах автоматического анализа поэтических текстов, при построении тезаурусов и онтологий, а также для изучения морфологии казахского языка.