Г. В. Альшанский, alshansk@imp.uran.ru
Институт физики металлов УрО РАН
Браславский П.И.
Институт машиноведения УрО РАН, Екатеринбург
П.В. Титов, titp@crona.ru
Крона КС, Екатеринбург
Исходным пунктом процесса поиска информации является информационная потребность, которая возникает у пользователя как следствие недостатка имеющейся информации для решения новой проблемы. Чтобы найти необходимую информацию, пользователь обращается к информационно-поисковой системе (ИПС). При обращении к ИПС пользователь должен сформулировать информационную потребность в виде запроса. Формулировка информационной потребности на языке запросов - трудно формализуемый этап поиска. Без опыта и знания принципов работы ИПС, при отсутствии представлений о коллекции документов сформулировать эффективный запрос довольно сложно.
Наиболее ярко эта ситуация проявляется при поиске в Интернете. В отличие от традиционной библиотеки, где можно обратиться за помощью к библиографу, при обращении к машинам поиска (МП) Интернета пользователь оказывается <один на один> с системой. Часто на формулировку запроса, который возвращал бы необходимый результат, уходит много времени. При этом развитые возможности языков запросов, как правило, остаются невостребованными, запросы к МП Интернета обычно состоят из двух-трех слов. Стандартом интерфейса МП Интернета de facto стало одно поле ввода, а наиболее распространенной формой запроса - несколько слов через пробел. Разработчики МП осознают бесперспективность <воспитания пользователя>, поэтому в массе не стремятся к развитию языков запросов. Их усилия направлены на учет неявной информации, которая содержится в запросе, а также выявление предпочтений и ожиданий <массового пользователя>.
Это не всегда идет на пользу относительно немногочисленным <искателям> со специфическими информационными потребностями. Если сообщество таких пользователей с близкими интересами не располагает специализированным поисковым сервисом, дисбаланс между универсальностью МП Интернета и специфичностью информационных потребностей можно попытаться устранить на этапе формулировки запросов. Одним из решений может быть автоматическая и полуавтоматическая модификация информационных запросов на основе тезауруса - семантического словаря терминов предметной области.
Модификация (в частности - расширение) запросов - известный и распространенный прием в информационном поиске. Модификация запросов используется для повышения эффективности поиска (т.е. улучшения таких показателей, как полнота или точность), а также для удобства пользователя.
Один из традиционных методов расширения запросов - обратная связь по релевантности (relevance feedback) [Baeza-Yates, 1999]. В рамках этого метода поиск рассматривается как итеративный процесс, на каждом этапе которого происходит уточнение информационной потребности пользователя. Уточнение происходит за счет того, что пользователь явно указывает релевантные и нерелевантные документы в очередной выдаче, что ведет к модификации запроса. Усеченной реализацией этого метода является функция <найти похожие документы>, представленная на многих МП. В качестве развития метода можно рассматривать подход, который использует обратную связь по релевантности на этапе обучения системы переформулировки запросов [Klink, 2001]. После обучения система расширяет запросы без участия пользователя.
Другой подход - расширение запросов на основе статистики совместной встречаемости слов во всей коллекции или в отдельной выдаче [Baezo Yates, 1999]. Например, в конце 90-х годов прошлого века МП AltaVista (www.altavista.com) предоставляла сервис AltaVista Refine, который позволял уточнять запрос с помощью словаря совместной встречаемости слов [Schwarz, 1998].
Отдельное направление - это модификация запросов в форме естественно-языковых вопросов (см., например, [Agichtein et al., 2001]). Такого рода модификации не сводятся к простому удалению вопросительных или стоп-слов и могут быть достаточно изощренными. Например, МП <Яндекс> (www.yandex.ru) модифицирует запросы, соответствующие шаблонам <Что такое:?> и <Как сделать:?>. ИПС, которые <понимают вопросы>, позволяют пользователю выражать информационную потребность в более естественной форме.
Традиционно в информационном поиске для расширения запросов использовались семантические словари - тезаурусы (см., например, [Солтон, 1979]). На начальном этапе развития информационного поиска тезаурусы служили для стандартизации словаря ИПС и экономии памяти. Впоследствии основной функцией тезаурусов было повышение полноты поиска за счет объединения синонимичных и семантически близких терминов по <ИЛИ>. Позже были разработаны более сложные методы расширения запросов на основе тезаурусов [Gauch, 1993, Bodner, 1996].
В России к настоящему времени создано несколько универсальных тезаурусов для задач информационного поиска.
Компания <Медиалингва> предлагает разработчикам ИПС тезаурус для расширения поискового запроса (150 000 входов). Тезаурус содержит словари синонимов, антонимов, родственных слов и родовидовых связей [Тезаурус Медиалингва].
Тезаурус присутствует и в семействе продуктов
В университетской информационной системе <Россия> (www.cir.ru) используется тезаурус, который представляет собой иерархическую сеть более 42 тыс. понятий (более 95 тыс. русских слов и выражений) [Добров, 2002]. Тезаурус используется как для расширения запросов, так и для тематического индексирования документов.
Однако тезаурусы находят сегодня ограниченное применение в универсальных полнотекстовых МП Интернета. Одна из причин - в том, что чрезвычайно трудно построить тезаурус, который соответствовал бы тематическому разнообразию информации, индексируемой универсальной МП. С другой стороны, полнота не является критическим параметром универсальных МП Интернета.
Наше предложение состоит в том, чтобы использовать тезаурус узкой предметной области в качестве основы независимой системы для формирования запросов к универсальным МП. Такая система может стать элементом тематической метапоисковой машины [Браславский, 2002].
Существенные отличия предлагаемого подхода заключаются в следующем:
Можно предложить несколько способов использования тезауруса для формирования запроса на стороне клиента.
Во-первых, тезаурус можно рассматривать как понятийную карту предметной области. <Путешествуя> по этой карте - переходя от понятия к понятию, пользователь получает возможность выбирать термины и конструировать из них сложные запросы более осмысленно, легко и целенаправленно.
Во-вторых, дифференциация типов семантических отношений тезауруса позволяет использовать полуавтоматические процедуры модификации запросов, в частности - стратегии поиска [Браславский, 2001]. Стратегия - это шаблон с указанием связки (<И>, <ИЛИ>, <НЕ>) для каждого типа семантического отношения. Выбрав термин и применив к нему стратегию, мы получаем запрос, в котором выбранный (<опорный>) термин объединен со своими <соседями> в соответствии с маской-стратегией. Стратегии могут быть направлены на повышение точности или полноты поиска, выделение определенных понятийных сфер термина. Сформировав стратегию, ее можно применять последовательно к различным опорным терминам. Стратегии могут служить подсказкой начинающему пользователю, позволяют унифицировать поиск, сделать его в большей степени автоматизированным.
Частным случаем модификации запроса является перевод на другой язык. Это особенно актуально для специальной терминологии, где дословный и пословный перевод не может обеспечить хороший результат.
Можно предложить и другие методы автоматической и полуавтоматической модификации информационных запросов.
Так, например, пользователь может задать два термина (концепции), и запрос будет сформирован из терминов, составляющих кратчайший путь между заданными. Запрос такого типа призван моделировать логическое рассуждение в искомом документе.
В качестве параметра преобразования запросов может выступать количество найденных по запросу документов. После получения отклика на первоначальный запрос пользователь может дать задание на формирование более узкого или общего запроса. Правила сужения и расширения запроса основаны на использовании связей между термина тезауруса, контекста поиска (расстояние между терминами запроса в документе) и замены связок (<И>, <ИЛИ>, <НЕ>).
Систему модификации запросов на основе тезауруса можно рассматривать как предметно-ориентированный интеллектуальный front end универсальной МП Интернета. Использование ассистента позволяет сделать процесс формулировки запросов более осмысленным, удобным и эффективным.
При нашем подходе тезаурус - это основа для процедур формирования запросов к МП Интернета. Независимость тезауруса от МП, узкая предметная направленность, а также желание разделить процедуры работы с тезаурусом и его представление делают задачу разработки формата тезауруса особенно важной.
Наш подход к описанию терминологии с помощью тезауруса во многом опирается на работы [Никитина, 1978, 1987, 1996]. Свойства терминов предметной области - системность, устойчивость и регулярность связей, отсутствие экспрессии, установка на объективность описания - делают возможным адекватное описание терминологии с помощью тезаурусов. Ключевой момент такого подхода - учет системных свойств терминов предметной области (понятийной структуры терминологии по [Шелов, 2001]).
Основным элементом тезауруса мы считаем концептуальное понятие, которое выражается термином, а не сам термин. Такое решение позволяет естественным образом снять проблему описания полисемии: значение термина определяется концепцией, которой он соответствует. Кроме того, можно обойтись без дифференциации различных типов эквивалентности терминов (синонимии, частичной синонимии, иностранных эквивалентов): одной концепции может соответствовать несколько терминов (в т.ч. разноязычных). Подход на основе концепций позволяет эффективно управлять гранулярностью (<зернистостью>) описания: разработчик тезауруса самостоятельно может определить необходимый порог семантического сходства/различий терминов за счет укрупнения/сужения концепций. Нам представляется, что такой подход хорошо соответствует нашей цели - разработке структуры тезауруса для модификации информационных запросов, - хотя может оказаться слишком грубым или упрощенным для других лексикографических задач.
При разработке мы ориентировались на то, что тезаурус и соответствующий формат представления должны одновременно выполнять несколько функций.
Репрезентативная функция - адекватно (с точки зрения поставленной прикладной задачи) описывать терминологию предметной области. На этом уровне ключевым моментом является выделение структурных элементов описания.
Прикладная функция. Чтобы процедуры работы с тезаурусом были независимы от конкретного тезауруса, структура должна обладать внутренней интерпретируемостью.
Формат должен выполнять также коммуникативную функцию, т.е. способствовать повторному использованию, обмену и интеграции терминологических данных в виде тезаурусов.
Кроме того, при разработке перед нами стояла традиционная задача сохранения баланса между развитостью структуры, выразительными возможностями формата - с одной стороны - и простотой, прозрачностью описания - с другой.
Исходя из этих требований, в качестве формата представления тезауруса мы выбрали язык XML. Формат тезауруса описывается в виде XML Schema.
В качестве аналогов при работе мы рассматривали формат словаря Virtual HyperGlossary [Virtual] и документы проекта SALT [SALT]. При разработке формата описания тезауруса мы старались ориентироваться на отечественный и международный стандарты [ГОСТ, ISO].
Более подробное описание компонентов представления тезауруса можно найти в [Браславский, 2003]. Последнюю версию формата представления тезауруса в виде XML Schema, а также документацию можно найти по адресу http://imach.uran.ru/pb/thesaurus/.
Нами создана программа ProThes J, которая является прототипом системы модификации запросов. Система построена по архитектуре <клиент-сервер> (рис. 1). На сервере располагаются данные (тезаурус) и вся логика работы системы, клиент реализует пользовательский интерфейс. В настоящее время программа работает с МП Google (www.google.com), которая предоставляет доступ к своему индексу по протоколу SOAP (см. http://www.google.com/apis/). Программа написана на языке Java.
Рис. 1. Архитектура системы ProThes J (Т - тезаурус)
В клиентской части аплет отображает список терминов тезауруса, в графическом виде отображает семантическую окрестность опорного термина, предоставляет средства задания стратегии поиска, содержит поле редактирования запроса (рис. 2).
Рис. 2. Интерфейс системыProThes J
В работе описаны предпосылки и состояние исследований в области формирования и модификации запросов к ИПС. Предлагаются методы модификации информационных запросов к МП Интернета на основе предметно-ориентированного тезауруса с сильно дифференцированными семантическими связями, который располагается на стороне клиента. Такое решение может уравновесить универсальность МП Интернета и специфичность информационных потребностей некоторых сообществ пользователей, стать предметно-ориентированным front end'ом универсальной МП Интернета. Предложен формат представления терминологии для задачи модификации запросов к МП Интернета в виде XML Schema. Описывается рабочий прототип системы модификации запросов ProThes J.
Работа поддержана грантом РФФИ 03-07-90342 .
Ваши комментарииОбратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск