Поиск информации в Интернете
Сеть Интернет растет очень быстрыми темпами, и найти нужную информацию среди миллиардов Web-страниц и файлов становится все сложнее. Для поиска информации используются специальные поисковые серверы, которые содержат более или менее полную и постоянно обновляемую информацию о Web-страницах, файлах и других документах, хранящихся на десятках миллионов серверов Интернета.
Различные поисковые сервера могут использовать различные механизмы поиска, хранения и предоставления пользователю информации. Поисковые серверы Интернета можно разделить на две группы:
- поисковые системы общего назначения;
- специализированные поисковые системы. Современные поисковые системы часто являются информационными порталами, которые предоставляют пользователям не только возможности поиска документов в Интернете, но и доступ к другим информационным ресурсам (новостям, информации о погоде, о валютном курсе, интерактивным географическим картам и так далее).
Поисковые системы общего назначения
Поисковые системы общего назначения являются базами данных, содержащими тематически сгруппированную информацию об информационных ресурсах Всемирной паутины. Такие поисковые системы позволяют находить Web-сайты или Web-страницы по ключевым словам в базе данных или путем поиска в иерархической системе каталогов.
Интерфейс таких поисковых систем общего назначения содержит список разделов каталога и поле поиска. В поле поиска пользователь может ввести ключевые слова для поиска документа, а в каталоге выбрать определенный раздел, что сужает поле поиска и таким образом ускоряет его.
Заполнение баз данных осуществляется с помощью специальных программ-роботов, которые периодически "обходят" Web-серверы Интернета. Программы-роботы читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных, содержащую URL-адреса документов.
Так как информация в Интернете постоянно меняется (создаются новые Web-сайты и страницы, удаляются старые, меняются их URL-адреса и так далее), поисковые роботы не всегда успевают отследить все эти изменения. Информация, хранящаяся в базе данных поисковой системы, может отличаться от реального состояния Интернета, и тогда пользователь в результате поиска может получить адрес уже не существующего или перемещенного документа.
В целях обеспечения большего соответствия между содержанием базы данных поисковой системы и реальным состоянием Интернета большинство поисковых систем разрешают автору нового или перемещенного Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит URL-адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.
Сайты в базе данных ранжируются по количеству их посещений в день, неделю или месяц. Посещаемость сайтов определяется с помощью специальных счетчиков, которые могут быть установлены на сайте. Счетчики фиксирует каждое посещение сайта и передают информацию о количестве посещений на сервер поисковой системы.
Поиск по ключевым словам. Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска. Простой запрос содержит одно или несколько ключевых слов, которые, по вашему мнению, являются главными для этого документа. Можно также использовать сложные запросы, использующие логические операции, шаблоны и так далее.
Через некоторое время после отправки запроса поисковая система вернет аннотированный список URL-адресов документов, в которых были найдены указанные вами ключевые слова. Для просмотра этого документа в браузере достаточно активизировать указывающую на документ ссылку.
Если ключевые слова были выбраны неудачно, то список URL-адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.
Наиболее мощными поисковыми системами общего назначения в русскоязычной части Интернета являются серверы Rambler (http://www.rambler.ru), Апорт (http://www.aport.ru), и Яндекс (http://www.yandex.ru), а по всему Интернету - сервер Yahoo (адрес http://www.yahoo.com).
Попробуем с помощью российского поискового сервера Яндекс найти сайт "Информатика и информационные технологии".
Поиск сайта по ключевым словам
1. В браузере открыть начальную страницу поискового сервера Яндекс. В поле поиска ввести ключевые слова, например "информатика учебники тесты CD-ROM".
Пробелы между словами соответствуют логической операции AND, то есть результатом поиска будет список сайтов, на которых присутствуют все вышеперечисленные ключевые слова.
2. В результате проведенного 3 ноября 2001 года поиска было найдено 118 Web-сайтов, содержащих все перечисленные выше ключевые слова.
Для каждого документа кроме ссылки приводится еще адрес сайта (URL) и его краткая аннотация.
Искомый сайт "Информатика и информационные технологии" занимает первое место в этом списке, так как в наибольшей степени соответствует запросу. Щелчок по ссылке приведет к загрузке титульной страницы сайта.
В статистике поиска можно ознакомиться с количеством сайтов, содержащих каждое из ключевых слов: информатика - 553896, учебники - 1274027, тесты - 2485000, CD- 7024321, ROM - 2128526.
Поиск в иерархической системе каталогов. Web-сайты в базе данных поисковой системы группируются в тематические каталоги - аналоги тематического указателя в библиотеке. Тематические разделы верхнего уровня, например "Интернет", "Компьютеры", "Культура и искусство" и др., содержат вложенные каталоги. Например, каталог "Интернет" может содержать подкаталоги "Провайдеры", "Поиск", "Общение" и др.
Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на URL-адреса наиболее посещаемых и важных Web-сайтов и Web-страниц. Каждая ссылка обычно аннотирована, то есть содержит короткий комментарий к содержанию документа.
Воспользуемся иерархической системой каталогов для поиска информации о провайдерах Интернета.
Поиск в иерархической системе каталогов
1. Выбрать из списка каталогов раздел "Компьютеры и связь - Интернет-доступ".
Вам будет представлен перечень ссылок на 1113 наиболее посещаемых сайтов по этой проблематике.
Вопросы для размышления
1. В каких случаях активизация найденной с помощью поисковой системы ссылки на документ может выдавать сообщение об ошибке?
Практические задания
4.21. Осуществить поиск сайта "Информатика и информационные технологии" с помощью различных поисковых систем. Сравнить результаты поиска.
|