Информация о статье

2017 г., Том 22, № 4, с.11-21

Барахнин В.Б., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Лукпанова Л.Х.

Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов

Предложены алгоритмы анализа и синтеза словоформ в казахском языке, основанные на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования созданы словари, включающие около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов и около 3500 аффиксов и их комбинаций (вариантов окончаний) для существительных и прилагательных. Некоторые сочетания аффиксов повторяются. Такой объем словарей достаточен для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых и вопросно-ответных системах, системах автореферирования, а также при построении тезаурусов и онтологий.

[полный текст]
Ключевые слова: казахский язык, стемматизация, генерация, морфологический анализ, аффикс,флективный класс

Библиографическая ссылка:
Барахнин В.Б., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Лукпанова Л.Х. Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов // Вычислительные технологии. 2017. Т. 22. № 4. С. 11-21
Главная| Цели| Редколлегия| Содержание| Поиск| Подписка| Правила| Контакты
ISSN 1560-7534
© 2024 ФИЦ ИВТ, Новосибирск