Технология кластеризации массивов текстовых документов с использованием составных ключевых термов без наличия тезауруса предметной области

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 4 Июнь 2013

Организация: ИВТ СО РАН

Авторы: Ткачев Дмитрий Александрович

Работа заключается в демонстрации практических преимуществ кластеризации документов на основе ключевых словосочетаний, по сравнению с весьма популярной кластеризацией на основе анализа только однословных ключевых термов. При этом для выделения ключевых словосочетаний не используется знание предметной области документа. Во второй части работы рассматривается вопрос параллельного выполнения процесса кластеризации на основе мер, вычисленных по составным ключевым термам. В качестве алгоритма выбран метод FRiS-Cluster. В работе приводятся количественные величины оценок времени выполнения при различных исходных данных. Оценка эффективности процесса при использовании параллельной реализации алгоритма FRiS-Cluster на основе функции конкурентного сходства, по сравнению с классическим линейным методом интеллектуальной обработки данных, демонстрирует существенный выигрыш в производительности.