Исследование эффективности слоёв "плотной" ассоциативной памяти в нейросетевых алгоритмах распознавания речи типа Wav2Vec2

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 15 Ноябрь 2022

Организация: НГУ

Авторы: Гребенкин Даниил Витальевич

Современные нейросетевые модели на базе сквозного (end-to-end) подхода являются основой многих прикладных систем компьютерной лингвистики. Не стало исключением и распознавание речи – алгоритмы типа wav2vec2 позволяют создавать более эффективные решения с помощью переноса обучения в глубоких нейросетях, предобученных решению некоторых общих задач, на специализированные задачи в рамках конкретного языка. При этом "сквозные" нейросетевые алгоритмы чаще всего являются более производительными, требуют меньше вычислительных ресурсов и их размер может быть уменьшен с помощью методов квантизации или прунинга. Тем не менее, известный с 2017 года механизм внимания, применяемый в большинстве таких нейросетевых алгоритмов, при всех своих достоинствах не лишен и ряда недостатков. В данной работе рассматривается возможность замены механизма многоголовочного внимания, используемого в нейросетевом алгоритме распознавания речи типа Wav2Vec2, на современные сети Хопфилда. Авторами экспериментально проверяется гипотеза о том, что концепция “плотной” ассоциативной памяти лучше подходит для решения задач восстановления пропущенных фрагментов звукового сигнала и преобразования этого сигнала в слова естественного языка, чем многоголовочное внимание. Также проводится попытка теоретического объяснения связи между ассоциативной памятью и языковым контекстом.