Информация о публикации

Просмотр записей
Инд. авторы: Мансурова М.Е., Койбагаров К.Ч., Барахнин В.Б., Солтангельдинова М.., Бердибеков С..
Заглавие: Применение морфологического анализатора казахского языка для извлечения фактов из фактографических систем
Библ. ссылка: Мансурова М.Е., Койбагаров К.Ч., Барахнин В.Б., Солтангельдинова М., Бердибеков С. Применение морфологического анализатора казахского языка для извлечения фактов из фактографических систем // Материалы Международной научной конференции «Информатика и прикладная математика», посвященной 25-летию независимости Республики Казахстан и 25-летию Института информационных и вычислительных технологий. Алматы, 21-24 сентября 2016 года. - 2016. - Алматы. - С.156-165. - ISBN: 978-601-280-767-7.
Реферат: rus: В данной работе описана параллельная реализация алгоритма FRiS-Tax для кластеризации корпуса документов. Алгоритм основан на оценке сходства между объектами в конкурентной ситуации, которая приводит к понятию функции конкурентного сходства (FRiS-функции). В качестве шкал для определения меры сходства были выбраны атрибуты библиографического описания документов. Распараллеливание осуществляется на этапе настройки коэффициентов в формуле меры сходства генетического алгоритма, а также непосредственно на этапе кластеризации. Алгоритм кластеризации реализован на высокопроизводительной платформе MPJ Express. Приведены количественные оценки времени выполнения процесса, демонстрирующие преимущества параллельной реализации алгоритма.
Ключевые слова: кластеризация текстовых документов; генетические алгоритмы; параллельные алгоритмы;
Издано: 2016
Физ. характеристика: с.156-165
Конференция: Название: Международная научная конференция «Информатика и прикладная математика», посвященная 25-летию независимости Республики Казахстан и 25-летию Института информационных и вычислительных технологий
Город: Алматы
Страна: Казахстан
Даты проведения: 2016-09-21 - 2016-09-24
Цитирование:
1. Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии//Материалы Всерос. конф. с международным участием «Знания -Онтологии -Теории» (ЗОНТ-07). Новосибирск, 2007. Т. 2. С. 67-76.
2. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов//Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9.
3. Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax//Вычислительные технологии. -Т. 18, № 6, 2013. -С. 62-74.
4. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы/Под ред. В.М. Курейчика. -2-е изд., испр. и доп. -М.: ФИЗМАТЛИТ, 2006. -320 с.
5. Википедия: Расстояние Левенштейна. URL: https://en.wikipedia.org/wiki/Levenshtein_distance (дата обращения: 01.02.2016)
6. Andrei Z. Broder, Identifying and Filtering Near-Duplicate Documents/Proceedings of the 11th Annual Symposium on Combinatorial Pattern Matching Table of Contents, Pages: 1-10.
7. Оценка кластеризации. URL: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-ofclustering-1.html (дата обращения: 01.02.2016)
8. Bäck, Thomas, Evolutionary Algorithms in Theory and Practice (1996), p. 120, Oxford Univ. Press.
9. MPJ-Express. URL: http://mpj-express.org/(дата обращения: 01.02.2016)
10. Processing Data with Java SE 8 Streams. URL: http://www.oracle.com/technetwork/articles/java/ma14-java-se-8-streams-2177646.html (дата обращения: 01.02.2016)