VIII Международная конференция по электронным публикациям "EL-Pub2003"

8-10 октября 2003 г., г. Новосибирск, Академгородок

Формирование информационных запросов к машинам поиска интернета на основе тезауруса

Г. В. Альшанский, alshansk@imp.uran.ru
Институт физики металлов УрО РАН
Браславский П.И.
Институт машиноведения УрО РАН, Екатеринбург
П.В. Титов, titp@crona.ru
Крона КС, Екатеринбург

Введение

Исходным пунктом процесса поиска информации является информационная потребность, которая возникает у пользователя как следствие недостатка имеющейся информации для решения новой проблемы. Чтобы найти необходимую информацию, пользователь обращается к информационно-поисковой системе (ИПС). При обращении к ИПС пользователь должен сформулировать информационную потребность в виде запроса. Формулировка информационной потребности на языке запросов - трудно формализуемый этап поиска. Без опыта и знания принципов работы ИПС, при отсутствии представлений о коллекции документов сформулировать эффективный запрос довольно сложно.

Наиболее ярко эта ситуация проявляется при поиске в Интернете. В отличие от традиционной библиотеки, где можно обратиться за помощью к библиографу, при обращении к машинам поиска (МП) Интернета пользователь оказывается <один на один> с системой. Часто на формулировку запроса, который возвращал бы необходимый результат, уходит много времени. При этом развитые возможности языков запросов, как правило, остаются невостребованными, запросы к МП Интернета обычно состоят из двух-трех слов. Стандартом интерфейса МП Интернета de facto стало одно поле ввода, а наиболее распространенной формой запроса - несколько слов через пробел. Разработчики МП осознают бесперспективность <воспитания пользователя>, поэтому в массе не стремятся к развитию языков запросов. Их усилия направлены на учет неявной информации, которая содержится в запросе, а также выявление предпочтений и ожиданий <массового пользователя>.

Это не всегда идет на пользу относительно немногочисленным <искателям> со специфическими информационными потребностями. Если сообщество таких пользователей с близкими интересами не располагает специализированным поисковым сервисом, дисбаланс между универсальностью МП Интернета и специфичностью информационных потребностей можно попытаться устранить на этапе формулировки запросов. Одним из решений может быть автоматическая и полуавтоматическая модификация информационных запросов на основе тезауруса - семантического словаря терминов предметной области.

Состояние исследований

Модификация (в частности - расширение) запросов - известный и распространенный прием в информационном поиске. Модификация запросов используется для повышения эффективности поиска (т.е. улучшения таких показателей, как полнота или точность), а также для удобства пользователя.

Один из традиционных методов расширения запросов - обратная связь по релевантности (relevance feedback) [Baeza-Yates, 1999]. В рамках этого метода поиск рассматривается как итеративный процесс, на каждом этапе которого происходит уточнение информационной потребности пользователя. Уточнение происходит за счет того, что пользователь явно указывает релевантные и нерелевантные документы в очередной выдаче, что ведет к модификации запроса. Усеченной реализацией этого метода является функция <найти похожие документы>, представленная на многих МП. В качестве развития метода можно рассматривать подход, который использует обратную связь по релевантности на этапе обучения системы переформулировки запросов [Klink, 2001]. После обучения система расширяет запросы без участия пользователя.

Другой подход - расширение запросов на основе статистики совместной встречаемости слов во всей коллекции или в отдельной выдаче [Baezo Yates, 1999]. Например, в конце 90-х годов прошлого века МП AltaVista (www.altavista.com) предоставляла сервис AltaVista Refine, который позволял уточнять запрос с помощью словаря совместной встречаемости слов [Schwarz, 1998].

Отдельное направление - это модификация запросов в форме естественно-языковых вопросов (см., например, [Agichtein et al., 2001]). Такого рода модификации не сводятся к простому удалению вопросительных или стоп-слов и могут быть достаточно изощренными. Например, МП <Яндекс> (www.yandex.ru) модифицирует запросы, соответствующие шаблонам <Что такое:?> и <Как сделать:?>. ИПС, которые <понимают вопросы>, позволяют пользователю выражать информационную потребность в более естественной форме.

Традиционно в информационном поиске для расширения запросов использовались семантические словари - тезаурусы (см., например, [Солтон, 1979]). На начальном этапе развития информационного поиска тезаурусы служили для стандартизации словаря ИПС и экономии памяти. Впоследствии основной функцией тезаурусов было повышение полноты поиска за счет объединения синонимичных и семантически близких терминов по <ИЛИ>. Позже были разработаны более сложные методы расширения запросов на основе тезаурусов [Gauch, 1993, Bodner, 1996].

В России к настоящему времени создано несколько универсальных тезаурусов для задач информационного поиска.

Компания <Медиалингва> предлагает разработчикам ИПС тезаурус для расширения поискового запроса (150 000 входов). Тезаурус содержит словари синонимов, антонимов, родственных слов и родовидовых связей [Тезаурус Медиалингва].

Тезаурус присутствует и в семействе продуктов компании <Гарант-Парк-Интернет> (www.rco.ru). По информации разработчиков, в состав тезауруса вошло около 75 тыс. слов и словосочетаний, объединенных в 22 тыс. гипонимических рядов, в том числе 17 тыс. синонимических рядов, охватывающих 45 тыс. слов [Тезаурус RCO].

В университетской информационной системе <Россия> (www.cir.ru) используется тезаурус, который представляет собой иерархическую сеть более 42 тыс. понятий (более 95 тыс. русских слов и выражений) [Добров, 2002]. Тезаурус используется как для расширения запросов, так и для тематического индексирования документов.

Однако тезаурусы находят сегодня ограниченное применение в универсальных полнотекстовых МП Интернета. Одна из причин - в том, что чрезвычайно трудно построить тезаурус, который соответствовал бы тематическому разнообразию информации, индексируемой универсальной МП. С другой стороны, полнота не является критическим параметром универсальных МП Интернета.

Формирование запросов на стороне пользователя с использованием тезауруса

Наше предложение состоит в том, чтобы использовать тезаурус узкой предметной области в качестве основы независимой системы для формирования запросов к универсальным МП. Такая система может стать элементом тематической метапоисковой машины [Браславский, 2002].

Существенные отличия предлагаемого подхода заключаются в следующем:

Можно предложить несколько способов использования тезауруса для формирования запроса на стороне клиента.

Во-первых, тезаурус можно рассматривать как понятийную карту предметной области. <Путешествуя> по этой карте - переходя от понятия к понятию, пользователь получает возможность выбирать термины и конструировать из них сложные запросы более осмысленно, легко и целенаправленно.

Во-вторых, дифференциация типов семантических отношений тезауруса позволяет использовать полуавтоматические процедуры модификации запросов, в частности - стратегии поиска [Браславский, 2001]. Стратегия - это шаблон с указанием связки (<И>, <ИЛИ>, <НЕ>) для каждого типа семантического отношения. Выбрав термин и применив к нему стратегию, мы получаем запрос, в котором выбранный (<опорный>) термин объединен со своими <соседями> в соответствии с маской-стратегией. Стратегии могут быть направлены на повышение точности или полноты поиска, выделение определенных понятийных сфер термина. Сформировав стратегию, ее можно применять последовательно к различным опорным терминам. Стратегии могут служить подсказкой начинающему пользователю, позволяют унифицировать поиск, сделать его в большей степени автоматизированным.

Частным случаем модификации запроса является перевод на другой язык. Это особенно актуально для специальной терминологии, где дословный и пословный перевод не может обеспечить хороший результат.

Можно предложить и другие методы автоматической и полуавтоматической модификации информационных запросов.

Так, например, пользователь может задать два термина (концепции), и запрос будет сформирован из терминов, составляющих кратчайший путь между заданными. Запрос такого типа призван моделировать логическое рассуждение в искомом документе.

В качестве параметра преобразования запросов может выступать количество найденных по запросу документов. После получения отклика на первоначальный запрос пользователь может дать задание на формирование более узкого или общего запроса. Правила сужения и расширения запроса основаны на использовании связей между термина тезауруса, контекста поиска (расстояние между терминами запроса в документе) и замены связок (<И>, <ИЛИ>, <НЕ>).

Систему модификации запросов на основе тезауруса можно рассматривать как предметно-ориентированный интеллектуальный front end универсальной МП Интернета. Использование ассистента позволяет сделать процесс формулировки запросов более осмысленным, удобным и эффективным.

Тезаурус: структура и функции

При нашем подходе тезаурус - это основа для процедур формирования запросов к МП Интернета. Независимость тезауруса от МП, узкая предметная направленность, а также желание разделить процедуры работы с тезаурусом и его представление делают задачу разработки формата тезауруса особенно важной.

Наш подход к описанию терминологии с помощью тезауруса во многом опирается на работы [Никитина, 1978, 1987, 1996]. Свойства терминов предметной области - системность, устойчивость и регулярность связей, отсутствие экспрессии, установка на объективность описания - делают возможным адекватное описание терминологии с помощью тезаурусов. Ключевой момент такого подхода - учет системных свойств терминов предметной области (понятийной структуры терминологии по [Шелов, 2001]).

Основным элементом тезауруса мы считаем концептуальное понятие, которое выражается термином, а не сам термин. Такое решение позволяет естественным образом снять проблему описания полисемии: значение термина определяется концепцией, которой он соответствует. Кроме того, можно обойтись без дифференциации различных типов эквивалентности терминов (синонимии, частичной синонимии, иностранных эквивалентов): одной концепции может соответствовать несколько терминов (в т.ч. разноязычных). Подход на основе концепций позволяет эффективно управлять гранулярностью (<зернистостью>) описания: разработчик тезауруса самостоятельно может определить необходимый порог семантического сходства/различий терминов за счет укрупнения/сужения концепций. Нам представляется, что такой подход хорошо соответствует нашей цели - разработке структуры тезауруса для модификации информационных запросов, - хотя может оказаться слишком грубым или упрощенным для других лексикографических задач.

При разработке мы ориентировались на то, что тезаурус и соответствующий формат представления должны одновременно выполнять несколько функций.

Репрезентативная функция - адекватно (с точки зрения поставленной прикладной задачи) описывать терминологию предметной области. На этом уровне ключевым моментом является выделение структурных элементов описания.

Прикладная функция. Чтобы процедуры работы с тезаурусом были независимы от конкретного тезауруса, структура должна обладать внутренней интерпретируемостью.

Формат должен выполнять также коммуникативную функцию, т.е. способствовать повторному использованию, обмену и интеграции терминологических данных в виде тезаурусов.

Кроме того, при разработке перед нами стояла традиционная задача сохранения баланса между развитостью структуры, выразительными возможностями формата - с одной стороны - и простотой, прозрачностью описания - с другой.

Исходя из этих требований, в качестве формата представления тезауруса мы выбрали язык XML. Формат тезауруса описывается в виде XML Schema.

В качестве аналогов при работе мы рассматривали формат словаря Virtual HyperGlossary [Virtual] и документы проекта SALT [SALT]. При разработке формата описания тезауруса мы старались ориентироваться на отечественный и международный стандарты [ГОСТ, ISO].

Более подробное описание компонентов представления тезауруса можно найти в [Браславский, 2003]. Последнюю версию формата представления тезауруса в виде XML Schema, а также документацию можно найти по адресу http://imach.uran.ru/pb/thesaurus/.

Прототип системы модификации запросов

Нами создана программа ProThes J, которая является прототипом системы модификации запросов. Система построена по архитектуре <клиент-сервер> (рис. 1). На сервере располагаются данные (тезаурус) и вся логика работы системы, клиент реализует пользовательский интерфейс. В настоящее время программа работает с МП Google (www.google.com), которая предоставляет доступ к своему индексу по протоколу SOAP (см. http://www.google.com/apis/). Программа написана на языке Java.

Рис. 1. Архитектура системы ProThes J (Т - тезаурус)

В клиентской части аплет отображает список терминов тезауруса, в графическом виде отображает семантическую окрестность опорного термина, предоставляет средства задания стратегии поиска, содержит поле редактирования запроса (рис. 2).

Рис. 2. Интерфейс системыProThes J

Заключение

В работе описаны предпосылки и состояние исследований в области формирования и модификации запросов к ИПС. Предлагаются методы модификации информационных запросов к МП Интернета на основе предметно-ориентированного тезауруса с сильно дифференцированными семантическими связями, который располагается на стороне клиента. Такое решение может уравновесить универсальность МП Интернета и специфичность информационных потребностей некоторых сообществ пользователей, стать предметно-ориентированным front end'ом универсальной МП Интернета. Предложен формат представления терминологии для задачи модификации запросов к МП Интернета в виде XML Schema. Описывается рабочий прототип системы модификации запросов ProThes J.

Библиография

  1. Браславский П.И. Метапоисковая машина для поиска специализированной научной информации в интернете: структура и функции // Вестник Томского гос. ун-та. - 2002. - №1 (II) Приложение. - С. 353 - 356.
  2. Браславский П.И. Построение запросов к машине поиска Internet с помощью тезауруса // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Сб. докладов Третьей Всероссийской конференции RCDL'2001. - Петрозаводск: КарНЦ РАН, 2001. - С. 83 - 87.
  3. Браславский П.И. Тезаурус для расширения запросов к машинам поиска Интернета: структура и функции // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. конференции Диалог'2003 (Протвино, 11-16 июня 2003 г.). - М.: Наука, 2003. - С. 95-100.
  4. ГОСТ 7.25 - 2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. - М.: Изд-во стандартов, 2001.
  5. Добров Б.В., Лукашевич Н.В. Тезаурус русского языка для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии. Тр. междунар. семинара <Диалог-2002> в 2т. Т. 2: Прикладные проблемы. - М.: Наука, 2002. - С.338 - 346.
  6. Никитина С.Е. Семантический анализ языка науки. (На материале лингвистики.) - М.: Наука, 1987. - 276 с.
  7. Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. - М.: Наука, 1978. - 312 с.
  8. Никитина С.Е., Васильева Н.В. Экспериментальный системный словарь стилистических терминов. Принципы составления и избранные словарные статьи. - М., 1996. - 172 с.
  9. Солтон Дж. Динамические библиотечно-информационные системы. - М.: Мир, 1979. - 558 с.
  10. Тезаурус Медиалингва - http://www.medialingua.ru/tesaurus.html
  11. Тезаурус RCO - http://www.rco.ru/product.asp?ob_no=19
  12. Шелов С.Д. Терминоведение: семь вопросов и семь ответов по семантике термина // НТИ. Сер. 2. Информ. процессы и системы. - 2001. - № 2. - С. 1-12.
  13. Agichtein E., Lawrence S., Gravano L. Learning Search Engine Specific Query Transforma-tions for Question Answering // Proc. of the 10th Int. WorldWide Web Conf. - Hong Kong, 2001. - P. 169 -178.
  14. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. - New York et al.: ACM Press, Addison-Wesley, 1999. - 513 p.
  15. Bodner R., Song F. Knowledge-based approaches to query expansion in information retrieval // Lecture Notes in Computer Science. - Vol. 1081. - 1996. - P. 146 -158.
  16. Gauch S., Smith J.B. An Expert System for Automatic Query Reformulation // Journal of the Amer. Society of Inf. Science. - 1993. - Vol. 44 (3). - P. 124 -136.
  17. ISO 12620: 1999 Computer applications in terminology - Data categories.
  18. Klink S. Query reformulation with collaborative concept-based expansion // Proc. of the 1st Int. Workshop on Web Document Analysis. - 2001. - P. 19 - 22.
  19. SALT project - XML representations of Lexicons and Terminologies (XLT) - Default XLT Format (DXLT) - http://www.ttt.org/oscar/xlt/dxltspecs.html
  20. Schwarz C. Web Search Engines // Journal of the Amer. Society for Inf. Science. - 1998. - Vol. 49 (11). - P. 973 - 982.
  21. Virtual HyperGlossary - http://www.vhg.org.uk/home/

Работа поддержана грантом РФФИ 03-07-90342 .


Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск