Бархатов А.В.
Красноярский государственный университет (Центр Интернет), Красноярск
Поисковые системы Internet позволяют значительно уменьшить время поиска необходимой информации в гигантских массивах данных Internet. Поисковые системы в Сети (Web) можно классифицировать следующим образом: поисковые машины, каталоги, тематические каталоги, специализированные поисковые машины и каталоги, метапоисковые машины.
Поисковые машины постоянно исследуют Сеть, просматривая все сайты, которые им удается найти, и помещая информацию о них в свои базы данных. Для работы поисковых машин не требуется практически никакого человеческого вмешательства, т.к. вся работа происходит автоматически. Достоинствами поисковых машин является то, что они могут содержать информацию практически обо всех сайтах Сети, что позволяет пользователям находить сайты практически по любым запросам. В то же время, данные поисковые системы дают возможность лишь полнотекстового поиска, т.к. они не могут в общем случае "понять" структуру индексируемого ими сайта и, соответственно, корректно классифицировать отдельные элементы документов сайта. К примеру, если есть необходимость найти все электронные варианты произведений Михаила Булгакова, то на запрос "Михаил Булгаков" поисковые машины найдут огромное количество документов, в которых есть сочетание слов "Михаил Булгаков". Среди найденных страниц будут и страницы с электронными вариантами произведений Михаила Булгакова, однако поисковые машины не смогут правильно отсортировать список найденных страниц, а пользователь навряд ли сможет выбрать среди тысяч документов все необходимые ему. Запрос "произведения Михаила Булгакова" приведёт к уменьшению количества найденных документов, но в то же время, некоторые исключенные документы могут содержать искомую информацию. Наиболее хорошо себя зарекомендовавшими себя поисковыми машинами на данный момент являются AltaVista, Lycos, Excite, HotBot, InfoSeek, Northern Light, Яndex, Rambler, Апорт.
Каталоги представляют собой тематические каталоги сайтов различных тематик. Добавление сайтов в такие каталоги осуществляется авторами сайтов, а также, возможно, так называемыми гидами, которые "блуждают" по сети и добавляют найденные сайты в нужные разделы каталога. С помощью каталогов можно достаточно просто и быстро найти сайты по интересующей тематике. Поиск возможен лишь по ключевым словам. Недостатком каталогов является то, что они содержат информацию лишь о части Сети, поэтому зачастую можно вообще не найти сайтов по интересующей тематике. Например, если требуется опять же найти электронные варианты произведений Михаила Булгакова, то имеется возможность найти лишь сайты посвященные данному автору, причем эти сайты могут и не содержать самих произведений. К тому же, в каталоге может вообще не быть сайтов о Михаиле Булгакове, и тогда придется просматривать большой ряд сайтов с литературной тематикой. Наиболее полными, популярными и развивающимися каталогами сейчас являются Yahoo!, List.ru, Russia on the Net, Созвездие Internet.
Тематические каталоги являются разновидностью обычных каталогов и ориентированны на определенную тематику. Вырожденным случаем тематических каталогов можно считать коллекции ссылок, в которых весь список ресурсов располагается на одной или нескольких страницах. К тематическим каталогам можно отнести также каталоги региональных ресурсов. Тематические каталоги обычно плохо поддерживаются, и поэтому зачастую является неполными и устаревшими.
Существуют также специализированные поисковые машины и каталоги, которые предназначены для поиска различного рода специализированной информации. Например, существуют системы для поиска новостей Usenet (системы Google Groups, Yahoo! News, TELA), системы для поиска людей (Yahoo! People, ClassMates), системы для поиска списков рассылок (Liszt, CityCat), системы для поиска файлов на ftp-серверах (FtpSearch, Lycos FtpSearch) и др. К данной категории относятся, в частности, сайты, которые имеют большие базы данных документов и предоставляют некоторые средства для поиска в этих документах (Сервер Информационных Технологий, сервер издательства Elsevier, библиотека Мошкова и проч.).
Метапоисковые машины позволяют производить параллельный поиск в ряде поисковых систем. Обычно такие поисковые системы предоставляют дополнительные возможности при поиске (например, проверка ссылок, перевод и расширение запросов, перевод запросов на язык используемых поисковых систем и т.п.). Метапоисковые машины особенно полезны при поиске информации по плохо представленной в Сети тематике. Существуют также специализированные метапоисковые машины (Букинист, Архивариус и др.), которые позволяют производить поиск по ряду специализированных сайтов. Автором данной статьи была разработана метапоисковая машина "Искатель" (http://www.krasu.ru/search/), которая позволяет производить поиск в ряде Российских и зарубежных поисковых системам, а также производить специализированный поиск файлов, книг, статей Usenet. "Искатель" имеет ряд удобных и полезных возможностей, среди них: проверка ссылок, сортировка и группировка результатов, хранение результатов поиска и истории запросов на стороне сервера, рейтинг поисковых систем и др. Среди существующих метапоисковых систем следует выделить системы Dogpile, MetaCrawler и Следопыт. Основные недостатки поисковых машин, свойственны и метапоисковым машинам.
Современные поисковые системы общего назначения зачастую представляют собой некий конгломерат поисковой машины и каталога. Эти системы позволяют производить поиск сайтов как по тематике и ключевым словам, так и полнотекстовый поиск в Сети с использованием языка запросов.
Автор данной статьи, под руководством доцента кафедры вычислительных и информационных технологий Олейникова Б.В., в сотрудничестве с аспирантом КГТУ Афанасьевым М.В., ведёт разработку поискового портала. Поисковый портал будет представлять собой набор оригинальных поисковых средств, которые позволят производить удобный и эффективный поиск в Сети. На следующем рисунке представлена схема всей системы:

Ядром системы является база данных (БД), которая реализована на основе СУБД Oracle. Данная БД содержит тематический каталог ресурсов Сети. Одной из особенностей данного каталога является двойная классификация ресурсов - для каждого ресурса указывается его положение в тематическом каталоге и его класс. Классификация ресурсов по тематике присуща всем каталогам по определению. Кроме классификации по тематике, каждый ресурс БД принадлежит одному из классов, зарегистрированному в БД. Список классов ресурсов расширяем. На данный момент имеются такие классы, как "Книга", "Статья", "Форум", "Документация", "Сайт", "Периодического издание" и др. Кроме этих двух классификаций ресурсов, в БД предусмотрена возможность указания иерархии ресурсов. Например, периодическое издание может состоять из выпусков, а выпуски в свою очередь из статей - эти отношения можно хранить в БД. Для каждого ресурса в БД можно указать список авторов, список дополнительных ссылок на ресурс (переводов, зеркал и проч.), язык документа и проч.
В обычных каталогах для каждого сайта в БД хранится лишь ссылка на корень сайта, название, описание и, возможно, список ключевых слов. Однако это ограничивает возможности поиска. Предполагается, что БД разрабатываемого поискового портала будет содержать детальную информацию о сайтах (по крайней мере, для некоторой части сайтов). В таком каталоге поиск, к примеру, всех произведений Михаила Булгакова не составит труда, т.к. в БД указывается авторство.
Разумеется, заполнение такого каталога является трудоёмкой задачей. Если же сайт имеет большое количество документов и часто пополняется новыми материалами, то задача внесения информации о сайте в такой каталог для веб-мастеров становится практически не реальной. Стандартный же формат документов, используемый для публикации в Сети, не позволяет производить автоматическое заполнение такого каталога в общем случае. Возможно, в будущем, с переходом на язык XML или какие-то другие языки для представления документов в Сети, данная задача будет вполне реальной, однако сейчас единственным выходом является полуавтоматический разбор структуры сайтов. Полуавтоматический режим предполагает предварительное описание оператором структуры сайта на некотором особом языке. Дальнейшая же работа по разбору структуры сайта и помещению информации в БД делается в автоматическом режиме. На схеме поискового портала эта программа изображена параллелепипедом с надписью "Parser", которая переводится с английского языка как "синтаксический анализатор". Те сайты, для которых создана программа-анализатор (Parser), будем называть обособленными системами. Четкое описание структуры сайтов задача достаточно трудоемкая, поэтому в первую очередь программы-анализаторы будут создаваться для сайтов, которые содержат большое количество материалов. К таким ресурсам относятся крупные электронные библиотеки, сайты издательств, коллекции технических документов и т.п.
Заполнение и редактирование каталога может осуществляться также оператором через программу "Администратор каталога" (см. схему выше). Данная программа должна позволять выполнять все основные функции над данными БД, в том числе и указание списка ключевых слов для элементов каталога.
Для взаимодействия с поисковым порталом пользователи обращаются к HTTP-серверу (см. схему выше). На HTTP-сервере должны располагаться программы, которые будут осуществлять взаимодействие с БД. Кроме просмотра каталога и поиска в нем, поисковый портал будет иметь возможность производить поиск с использованием других поисковых систем - как поисковых систем общего назначения, так и специализированных. Для этого будет использоваться метапоисковая система "Искатель" (см. схему выше).
Пользователи поискового портала будут иметь возможность создавать собственные разделы в каталоге и добавлять в них ресурсы, причем эти изменения будут видны только тому пользователю, который их внес. Это позволит пользователям отказаться от использования "закладок" браузеров. "Закладки" на портале имеют то преимущество, что пользователи будут иметь возможность доступа к ним из любого места в Сети, не привязываясь к настройкам компьютера.
Ещё одной полезной возможностью поискового портала будет возможность "подписки" на поиск ресурсов. После создания подписки на определенный запрос, например, на запрос "Михаил Булгаков", пользователь будет периодически оповещаться о появлении новых ресурсах Сети по выбранной тематике. Оповещение будет происходить при заходе на портал, а также, опционально, по электронной почте.
На данный момент выполнена часть работ по созданию поискового портала, а именно: создана БД для хранения каталога, создана программа "Администратор каталога", реализована библиотека классов на языке Java, предназначенная для создания программ-анализаторов, а также ряд тестовых программ-анализаторов. Метапоисковая система "Искатель", которая также является компонентом поискового портала, уже создана. В ближайшее время планируется перейти к разработке программ на стороне HTTP-сервера, а также создание программ-анализаторов для различных библиотечных ресурсов.
Ваши комментарииОбратная связь |
[Головная страница] [Конференции] [СО РАН] |
© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск