Информация о публикации

Просмотр записей
Инд. авторы: Барахнин В.Б., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Лукпанова Л.Х.
Заглавие: Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов
Библ. ссылка: Барахнин В.Б., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Лукпанова Л.Х. Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов // Вычислительные технологии. - 2017. - Т.22. - № 4. - С.11-21. - ISSN 1560-7534. - EISSN 2313-691X.
Внешние системы: РИНЦ: 30053460;
Реферат: eng: Purpose. Currently there is an urgent need for automatic processing of texts in the Kazakh language. Morphological analysis in the process of automatic text processing allows increasing both the completeness and the accuracy of the result of information retrieval. Since the Kazakh language is agglutinative, it is impractical to use the dictionary of word forms for the automation of morphological analysis. It is much more effective to use affix dictionaries and sets of rules. Algorithms for synthesizing and analyzing word forms of the Kazakh language are proposed in this article. Methodology. A distinctive feature of the proposed algorithms for stemming and generation of word forms of the Kazakh language is the use of the principle of words splitting into inflectional classes. To implement these algorithms for all changeable parts of speech (noun, adjective, verb), we described the sets of affix combination rules. Findings. During the research the dictionary was developed. It includes about 2000 verbal affixes and their combinations for the 17 inflectional classes and about 3500 affixes and their combinations (variants of endings) for nouns and adjectives. Some combinations of affixes are repeated. The system is supplemented with an exception dictionary, including 18 nouns and 352 verbs, in which the word forms are formed by changing the stem. Such a volume of the dictionaries is sufficient to perform text analysis of any themes. The generation module and the stemming module are implemented in Python using libraries: psycopg2, collections. The dictionaries are stored in the database PostgreSQL. Originality. We tested the software application on words belonging to different parts of speech, and found no errors, which makes it possible to judge the correctness of the proposed algorithms. The proposed algorithms can be applied at the stage of morphological analysis in the search engines, summarization systems and question-answer systems, as well as in the construction of thesauri and ontologies.
rus: Предложены алгоритмы анализа и синтеза словоформ в казахском языке, основанные на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования созданы словари, включающие около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов и около 3500 аффиксов и их комбинаций (вариантов окончаний) для существительных и прилагательных. Некоторые сочетания аффиксов повторяются. Такой объем словарей достаточен для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых и вопросно-ответных системах, системах автореферирования, а также при построении тезаурусов и онтологий.
Ключевые слова: stemming; kazakh language; флективный класс; аффикс; морфологический анализ; генерация; стемматизация; казахский язык; Inflectional classes; affixes; morphological analysis; generation;
Издано: 2017
Физ. характеристика: с.11-21
Цитирование:
1. Тревгода С.А. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений: Автореф. дис.. канд. техн. наук. СПб., 2009. 18 р.
2. Гридина Е.А. Анализ алгоритмов автоматического реферирования текста//Вост.Европ. журн. передовых технологий. 2011. Т. 3, № 2(51). C. 36-38.
3. Хан У., Мани И. Системы автоматического реферирования. Адрес доступа: http://www.osp.ru/os/2000/12/067_print.htm (дата обращения: 12.03.2015)
4. Гинкул А.С. Сравнительный анализ существующих систем автоматического реферирования текста//Полiт. сучаснi проблеми науки. Киев, 2012. C. 255.
5. Анно Е.Н. Система морфологического анализа с синтезом словоформ//Семиотика и информатика. 1978. Вып. 10. С. 168-187.
6. Monz, C. Document retrieval in the context of question answering//Proc. of the 25th Europ. Conf. on Inform. Retrieval Res. (ECIR-03)/F. Sebastiani (Ed.). Lecture Notes in Comput. Sci. 2003. Vol. 2633. P. 571-579.
7. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации. Новосибирск: Наука, 2010. 196 c.
8. Белоногов Г.Г., Зеленков Ю.Г. Алгоритм автоматического анализа русских слов//Вопр. информ. теории и практики. 1985. № 53. С. 62-93.
9. Барахнин В.Б., Лукпанова Л.Х., Соловьев А.А. Алгоритм построения словоформ с использованием флективных классов для систем морфологического анализа казахского языка//Вестн. НГУ. Информ. технологии. 2014. Т. 12, вып. 2. С. 25-31.
10. Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., Бакиева А.М., Идрисова А.И. Модель определения нормальной формы слова для казахского языка//Вестн. НГУ. Информ. технологии. 2015. Т. 13, вып. 1. С. 107-116.
11. Шарипбаев А.А., Бекманова Г.Т., Ергеш Б.Ж., Бурибаева А.К., Карабалаева М.Х. Интеллектуальный морфологический анализатор, основанный на семантических сетях//Матер. Междунар. науч.-техн. конф. "Открытые семантические технологии проектирования интеллектуальных систем" (OSTIS-2012). Минск, БГУИР, 16-18 февраля 2012. С. 397-400.
12. Бурибаева А.К., Шарипбаев А.А., Бекманова Г.Т., Ергеш Б.Ж., Карабалаева М.Х. Аппаратная реализация синтеза словоформ казахского языка с помощью ассоциативной памяти//Вестн. Евраз. нац. ун-та им. Л.Н. Гумилева. 2012. Спец. выпуск. С. 180-183.
13. Заурбеков Д.Л., Кайракбай Б.М. Построение конечного преобразователя для морфологического анализа и генерации словоформ казахского языка//Materialy VIII Mie˛dzynar. nauk.-prakt. konf. "Wschodnie partnerstwo-2012". Przemy´sl, 07-15 wrze´snia. Vol. 8. Filologiczne nauki. Przemy´sl: Nauka i studia, 2012. S. 30-39.
14. Валяева Т. Грамматика казахского языка. Адрес доступа: http://kaz-tili.kz (дата обращения: 20.01.2017) Valyaeva, T. The grammar of the Kazakh language. Available at: http://kaz-tili.kz (accessed: 20.01.2017) (In Russ.)
15. Porter, M.F. An algorithm for suffix stripping//Program. 1980. Vol. 14, No. 3. P. 130-137.
16. Бакиева А.М. Программа генерации словоформ казахского языка. Адрес доступа: http://db4.sbras.ru/morpher Bakieva, A.M. Program generation of word forms of the Kazakh language. Available at: http://db4.sbras.ru/morpher (In Russ.)