Теоретико-информационный метод классификации научных текстов

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 3 Ноябрь 2015

Организация: ИВТ СО РАН, ГПНТБ СО РАН

Авторы: д.т.н. Рябко Б.Я., к.т.н. Гуськов А.Е., Селиванова И.В.

В последние годы резко возрастает число научных публикаций. Во многих разделах науки ежегодное количество текстов столь велико, что исследователям становится затруднительно найти их все и, соответственно, ознакомиться с новыми результатами, появившимися в их областях. В связи с этим задача информационной поддержки ученых приобретает особую важность и требует проведения предварительной классификации вновь появляющихся научных текстов с целью выявления тех из них, которые представляют интерес для конкретного исследователя. В работе предложен метод автоматической классификации научных текстов, основанный на сжатии данных. Данный подход применим в связи с тем, что алгоритмы компрессии лучше сжимают тексты терминологически близкого содержания. Показано, что предложенный метод довольно успешно решает поставленную задачу.