Разработка методики разметки параллельных мультиязычных текстов для автоматизации извлечения именованных сущностей и связей

Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00

Дата выступления: 16 Декабрь 2025

Организация: ФИЦ ИВТ (Новосибирск)

Авторы: Журба Ярослав Дмитриевич

Проект направлен на разработку методики разметки параллельных мультиязычных текстов для последующего применения в задачах извлечения именованных сущностей. Актуальность проекта обусловлена ограниченным объёмом размеченных корпусов для низкоресурсных языков и отсутствием стандартизованных подходов к переносу разметки между типологически различными языковыми парами. На текущем этапе сформулированы проблема, гипотезы и исследовательский план, включающий использование параллельных данных, лингвистических правил согласования сущностей и мультиязычных моделей.

Проект предполагает создание пайплайна, объединяющего выравнивание предложений, морфологический анализ, правила согласования и обучение NER-моделей. Планируется экспериментальное сравнение нескольких стратегий разметки и переносов, а также оценка влияния типологических различий на качество извлечения сущностей. Ожидаемым результатом является воспроизводимая методика и набор критериев для последующей проверки её эффективности.

Семинар будет проведен в смешанном формате. Очное заседание пройдет в конференц-зале ФИЦ ИВТ (к.513), дистанционно к семинару можно будет подключиться по ссылке https://vcs-6.ict.nsc.ru/rooms/grz-ayy-7ne/join

Для студентов и аспирантов, находящихся в Новосибирске и не имеющих причин для дистанционного подключения, очное присутствие обязательно.