Разработка программного инструментария для распознавания именованных сущностей в текстах на узбекском языке

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 12 Март 2024

Организация: НГУ (Новосибирск)

Авторы: Давлатёр Бахтиярович Менглиев

На сегодняшний день наблюдается активное развитие инструментов обработки текстовых данных для решения задач  морфологического и синтаксического анализа текстов, распознавания именованных сущностей и т.п.. Однако для малоресурсных языков, например, таких, как узбекский, существует дефицит инструментов обработки слабоструктурированных данных.

В рамках проведённого исследования разработан и реализован алгоритм распознавания именованных сущностей в текстах на узбекском языке с применением технологий машинного обучения. Для обучения модели использован размеченный корпус, состоящий из более чем 2000 предложений, источником этих данных являлись официальные документы, имеющие юридическую силу (законы, постановления, приказы) и обладающие чёткой формальной структурой предложений. Результаты эксперимента показывают высокую эффективность алгоритма: точность распознавания составляет 94 %. Предлагаемое решение для узбекского языка на сегодняшний день не имеет аналогов.

---

Онлайн-подключение на семинар будет осуществляться по ссылке:

https://vcs-6.ict.nsc.ru/rooms/be6-uui-gvg-ced/join