Разработка корпуса и инструмента автоматической классификации текстов на узбекском языке

Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00

Дата выступления: 17 Февраль 2026

Организация: НГУ (Новосибирск)

Авторы: Мадиримов Шохрух Уктам угли

Исследование посвящено разработке инструмента автоматической тематической классификации текстов на узбекском языке. Актуальность обусловлена дефицитом открытых корпусов и стандартных бенчмарков для узбекского NLP при экспоненциальном росте узбекоязычного цифрового контента.

Выявлены ключевые проблемы классификации узбекских текстов: вариативность письменности (параллельное использование латиницы и кириллицы), отсутствие стандартизации апострофов, агглютинативная морфология и дефицит качественной разметки. Проведен критический анализ существующих подходов (rule-based, классическое машинное обучение, гибридные методы).

Предложен интерпретируемый rule-based алгоритм тематической классификации на основе тематических лексиконов, системы взвешивания сигналов и правил разрешения конфликтов. Разработана методология предобработки текста и концепция создания качественного корпуса с трехуровневой системой разметки.

Ожидаемые результаты: rule-based классификатор с оценкой качества на аннотированном наборе данных; набор тематических словарей и правил; рекомендации по предобработке узбекских текстов; открытый программный инструмент с REST API и веб-интерфейсом.

Научная новизна заключается в адаптации и систематизации rule-based методов для низкоресурсного тюркского языка с акцентом на интерпретируемость и разработке воспроизводимой методики создания аннотированного набора данных для оценки качества.

Ключевые слова: обработка естественного языка, классификация текстов, узбекский язык, низкоресурсные языки, rule-based алгоритмы, интерпретируемость.

Семинар будет проведен в смешанном формате. Очное заседание пройдет в конференц-зале ФИЦ ИВТ (к.513), дистанционно к семинару можно будет подключиться по ссылке https://vcs-6.ict.nsc.ru/rooms/grz-ayy-7ne/join

Для студентов и аспирантов, находящихся в Новосибирске и не имеющих причин для дистанционного подключения, очное присутствие обязательно.