Организация хранения корпусов поэтических текстов в информационных аналитических системах с учетом специфики предметной области

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 10 Октябрь 2023

Организация: ФИЦ ИВТ (Новосибирск)

Авторы: Ольга Юрьевна Кожемякина, Наталья Александровна Шашок, Элина Дмитриевна Кожемякина

Информационная система, как соответствующий компонент программной системы, объединяет разнородную информацию о результатах анализа поэтических текстов, структура которых иерархична согласно их языковой природе. Вопрос иерархии текста равнозначно важен для процесса его анализа и для хранения корпусов текстов, что необходимо учитывать при разработке информационных систем, предназначенных для хранения и обработки текстов на естественном языке. Хранилище текстов является, как правило, центральным компонентом информационных аналитических систем и либо проектируется как база данных, либо представляет собой неструктурированный набор данных. В процессе концептуального проектирования хранилища корпусов поэтических текстов, с учетом специфики объектов предметной области, обосновано целесообразное использование двух систем хранения и поиска данных: реляционной базы данных для хранения связей между объектами в системе, а также объектов, не являющихся частью корпуса, и хранилища файлов с инструментом полнотекстового поиска в корпусе текстов, что повышает качество анализа текстов и расширяет возможности применения системы в целом.