Технология нормализации текстов с диалектными особенностями

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 21 Ноябрь 2023

Организация: НГУ (Новосибирск)

Авторы: Мадиримов Шохрух Уктам угли

(Тема и аннотация публикуются в авторской редакции)

Поставлена задача автоматической замены диалектных слов на литературные эквиваленты в текстах на узбекском языке. Реализация программного приложения включает в себя создание алгоритма, специализирующегося на обработке диалектных вариаций узбекского языка. Приложение использует лингвистические анализаторы для автоматического выбора диалектных слов и замену их на соответствующие литературные формы.

Алгоритм включает в себя механизм стемминга, использование обширной базы аффиксов для обработки неизвестных слов. В процессе работы созданы базы данных для южнохорезмского и североогузского диалектов, включающие более 80 тысяч корневых слов, преобразованных вручную в диалектные формы в том числе с учетом различных случайных аффиксов.

Алгоритм показал эффективность в преобразовании диалектных слов в соответствующие литературные формы, демонстрируя высокую точность при предварительной обработке известных слов. Отмечено снижение точности при обработке форм слов, измененных по сравнению с встречающимися в базах данных. Однако предложенный алгоритм обладает потенциалом для последовательных преобразований словоформ, что позволит повысить его точность.