Методы тематической классификации научных текстов на основе теоретико-информационного подхода

(по материалам кандидатской диссертации)

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 6 Октябрь 2020

Организация: ГПНТБ СО РАН

Авторы: Селиванова Ирина Вячеславовна

В связи с ежегодным ростом количества информации задача классификации текстовых документов становится особенно важной. Одной из областей, где рост количества новых документов особенно высок, является научная. Как правило, коды классификаторов научных работ либо определяются вручную, что требует больших трудозатрат, либо проставляются аналогично тематике журналов, в которых эти статьи опубликованы. Таким образом, несмотря на большой практический интерес и научное значение, задача построения методов автоматической классификации научных текстов далека от своего разрешения.
В работе рассматривается метод автоматической классификации научных текстов, основанный на применении алгоритмов сжатия данных для сравнительного анализа «близости» текстов. Для экспериментального подтверждения эффективности метода используются полнотекстовые англоязычные и русскоязычные научные документы, а также аннотации англоязычных публикаций. Также приводятся результаты сравнения работы метода с наиболее известными алгоритмами классификации и экспертной оценкой.

Семинар будет проходить в режиме ОНЛАЙН. Подключиться можно через браузер компьютера или телефона по ссылке: 
vcs-3.ict.sc/b/nmm-jge-zjd