Разработка корпуса и инструмента автоматической классификации текстов на узбекском языке
Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00
Дата выступления: 17 Февраль 2026
Организация: НГУ (Новосибирск)
Авторы: Мадиримов Шохрух Уктам угли
Исследование посвящено разработке инструмента автоматической тематической классификации текстов на узбекском языке. Актуальность обусловлена дефицитом открытых корпусов и стандартных бенчмарков для узбекского NLP при экспоненциальном росте узбекоязычного цифрового контента.
Выявлены ключевые проблемы классификации узбекских текстов: вариативность письменности (параллельное использование латиницы и кириллицы), отсутствие стандартизации апострофов, агглютинативная морфология и дефицит качественной разметки. Проведен критический анализ существующих подходов (rule-based, классическое машинное обучение, гибридные методы).
Предложен интерпретируемый rule-based алгоритм тематической классификации на основе тематических лексиконов, системы взвешивания сигналов и правил разрешения конфликтов. Разработана методология предобработки текста и концепция создания качественного корпуса с трехуровневой системой разметки.
Ожидаемые результаты: rule-based классификатор с оценкой качества на аннотированном наборе данных; набор тематических словарей и правил; рекомендации по предобработке узбекских текстов; открытый программный инструмент с REST API и веб-интерфейсом.
Научная новизна заключается в адаптации и систематизации rule-based методов для низкоресурсного тюркского языка с акцентом на интерпретируемость и разработке воспроизводимой методики создания аннотированного набора данных для оценки качества.
Ключевые слова: обработка естественного языка, классификация текстов, узбекский язык, низкоресурсные языки, rule-based алгоритмы, интерпретируемость.
Семинар будет проведен в смешанном формате. Очное заседание пройдет в конференц-зале ФИЦ ИВТ (к.513), дистанционно к семинару можно будет подключиться по ссылке https://vcs-6.ict.nsc.ru/rooms/grz-ayy-7ne/join
Для студентов и аспирантов, находящихся в Новосибирске и не имеющих причин для дистанционного подключения, очное присутствие обязательно.


