Разработка структуры документов с пересекающейся сегментацией в системе Elasticsearch

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 17 Октябрь 2023

Организация: ФИЦ ИВТ (Новосибирск)

Авторы: Наталья Александровна Шашок, Элина Дмитриевна Кожемякина

В процессе автоматического создания словарей авторского языка и конкордансов возникает задача определения контекста употребления лексики, при этом строфы и строки явно связаны иерархическими отношениями, однако строки и предложения, а также предложения и строфы иерархических отношений не имеют. Форматы хранения и передачи текстовых данных имеют, как правило, иерархичный характер, таким образом, практический интерес представляет разработка принципов структуризации текстов с учетом выявленных пересекающихся сегментов в рамках задачи поиска контекста с предварительно заданным уровнем сегментации. В докладе представлена структура документов JSON, использование которой в рамках индекса Elasticsearch позволяет осуществлять поиск контекста употребления лексики в корпусе поэтических текстов, хранящегося в индексе.