Стемматизация и генерация словоформ казахского языка для систем автоматической обработки текстов

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 29 Ноябрь 2016

Организация: ИВТ СО РАН, ИСИ СО РАН, НГУ (Новосибирск)

Авторы: д.т.н. Барахнин В.Б., к.ф.-м.н. Батура Т.В., Бакиева А.М.

В докладе  изложены алгоритмы синтеза и анализа словоформ казахского языка. Предложенные алгоритмы основаны на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования были созданы словари, включающие в себя около 2000 глагольных аффиксов и их комбинаций для 16 флективных классов и около 3500 аффиксов и их комбинаций (вариантов окончаний) для существительных и прилагательных. Некоторые сочетания аффиксов являются повторяющимися. Такой объем словарей является достаточным для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, а также при построении тезаурусов и онтологий.