Исследование и разработка методов текстовой аугментации с помощью языковых моделей

Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00

Дата выступления: 17 Март 2020

Организация: НГУ

Авторы: Тимасова Екатерина Константиновна

Современные алгоритмы для эффективного анализа текстов обычно требуют большого количества размеченных данных. Проблема состоит в том, что зачастую требуемого количества данных нет, а разметка с помощью людей стоит дорого и занимает много времени. Особенно актуальной выше обозначенная проблема является для русского языка, так как существующих качественно размеченных корпусов данных в нем крайне мало. Одним из решением этой проблемы является аугментация - увеличение числа данных за счет некоторых преобразований уже имеющихся.
Цель данной работы состоит в том, чтобы исследовать существующие методы аугментации и разработать новые на основе языковых моделей. Сравнение качества того или иного метода аугментации будет осуществляться на основе задачи классификации: чем сильнее метод аугментация улучшает качество решения задачи классификации, тем он лучше. В итоге все рассмотренные методы будут реализованы в открытом python-пакете для русскоязычных данных.