Построение корпуса и алгоритма для решения задачи автоматического связывания сущностей в текстах научных статей

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 17 Март 2021

Организация: НГУ

Авторы: Мезенцева Анастасия Алексеевна

С каждым годом количество научных публикаций возрастает, а вместе с ними и необходимость их автоматической обработки. Для этого полезно учитывать знания об окружающем мире, которые хранятся в базах знаний. На данный момент уже существуют готовые решения как для английского (например, OpenTapioca (https://opentapioca.org/), REL  https://github.com/informagi/REL), TagMe (https://tagme.d4science.org/tagme/), SpaCy (https://spacy.io)), так и для для русского языка, например, DeepPavlov (https://deeppavlov.ai/), но все они поддерживают только классический набор сущностей (названия организаций, имена людей, географические названия). В свою очередь, тексты научных статей имеют особую структуру и свой тип сущностей - научные термины. Применению стандартных алгоритмов в описанной специфике и посвящена данная работа. Нами был размечен корпус научных текстов, где каждый термин связывался с сущностью из базы знаний. Также мы реализовали алгоритм связывания сущностей и протестировали его на полученном корпусе. Данная система состоит из двух этапов: генерация сущностей-кандидатов для входного термина и ранжирование полученного множества кандидатов. На этапе генерации список кандидатов составляется на основе построчного совпадения термина и сущности. Для выбора наиболее релевантной сущности для входного термина используется информация о количестве у сущности ссылок на другие базы знаний, а также о количестве отношений сущности в базе знаний с другими сущностями. Нами был проведен анализ полученных результатов и предложены пути улучшения алгоритма на каждом из этапов. Например, при генерации важно учитывать вариативность написания терминов (“дескрипционная логика” - “логика описаний”). А улучшить качество ранжирования можно с помощью векторных представлений, полученных не только из моделей машинного обучения, но и с помощью графов