Блог Александра Башкирова

ИТ и бизнес, компьютеры и ПО, фото, программирование и просто мысли…
Этот сайт в основном посвящен тому, что мне интересно вне работы. Ведется в порядке хобби.
Все изложенное на сайте - мое частное оценочное мнение и не может быть истолковано иначе.
Со всеми вытекающими из этого последствиями.

Поиск в Сети

Просмотров: 1371Комментарии: 0
Статьи

ВНИМАНИЕ! Статья безнадежно устарела. Оставляю только потому, что это первая статья в блоге.

Практически каждый пользователь персонального компьютера, имеющий выход в Интернет, хоть раз, да пользовался услугами поисковых систем. Как правило, выбор той или иной поисковой машины, особенно у начинающих пользователей, происходит по принципу - "откуда-то знаю адрес, захожу, ищу:". Причем, выбор осуществляется не исходя из каких-либо объективных предпосылок, а эмпирически. То есть, - подсказали коллеги на работе, знакомые, соседи: Иногда получаются совсем смешные вещи - например, одна моя знакомая рассказала мне, что адрес поисковой машины, которой она периодически пользуется, был: нацарапан на столе, где стоял компьютер. Конечно, если Вы пользуетесь Интернетом периодически, и ищете информацию не чаще раза в год, то такой подход к поиску вполне оправдан. В случае же, если Ваши профессиональные интересы требуют периодического поиска той или иной информации, то такой подход оказывается малоэффективным - уже через два-три часа безуспешных поисков Вы понимаете, что получили несколько не то, что хотелось бы:

Для того, чтобы выбрать для себя ту или иную поисковую машину, давайте попробуем сначала разобраться в принципах их организации, посмотреть на работу поисковика "изнутри", сравнить достоинства и недостатки тех или иных поисковых машин. Во-первых, сразу же надо сказать, что все поисковые машины - это гигантские базы данных, в которых находится описание сотне тысяч сайтов. Одной из самых распространенных ошибок среди начинающих пользователей Сети является мнение, что поисковик по введенному запросу просматривает "весь Интернет" в поисках нужной информации. На самом деле это далеко не так. С точки зрения технической организации, все поисковые машины условно делятся на две категории - машины - "пауки" и модерируемые.

Машина - "паук" (вспомните аббревиатуру WWW - Word Wide Web - раз есть "всемирная паутина", то должны быть и пауки, ползающие по ней) представляет собой робот, внимательно просматривающий содержание сайта, начиная с заданного адреса. При просмотре робот составляет базу данных из слов, часто встречающихся на сайте. Далее по довольно сложному алгоритму робот определяет те слова, которые впоследствии войдут в описание сайта как ключевые, выделяет его описание, составляет список ссылок, находящихся на сайте, и добавляет все это в базу данных поисковой машины. После чего переходит на следующий сайт по первой найденной на предыдущем сайте ссылке. Затем - по второй, третьей и так далее. В принципе, такое "путешествие" может продолжаться бесконечно, поскольку каждый новый сайт дает роботу новую порцию ссылок. По такому принципу построена, например, поисковая машина "Рамблер" (http://www.rambler.ru). При вводе запроса по ключевому слову он осуществляет поиск в своей базе данных тех сайтов, для которых данное слово определено как ключевое (то есть, в первом приближении, максимальное число раз встречается в тексте сайта) и выводит список таких сайтов. Причем, чем чаще в содержании сайта встречается данное слово, и чем больше его содержание (с точки зрения робота) соответствует введенному термину, тем ближе к началу списка будет расположена ссылка на сайт. При поиске по разделам сайты в списке также располагаются в порядке, определяемым полнотой соответствия заявленной в заголовке раздела тематике. Положительные стороны такого подхода к построению базы данных поисковой машины очевидны - в идеале, "паук" работает вечно, постоянно пополняя свою базу данных. Как правило, именно в таких поисковых машинах находятся ссылки на довольно малоизвестные ресурсы. Например, автору как-то понадобилось найти информацию по теории решения изобретательских задач (ТРИЗ). Введя "ТРИЗ" в качестве ключевого слова в Рамблер, я с третьей(!) попытки нашел интересующую меня информацию. Отрицательная сторона такого подхода к организации поисковой машины состоит в необходимости пользователю порой просматривать описание гигантского количества ссылок, выданных поисковиком. Например, при вводе запроса на поиск по ключевому слову безобидного термина типа "почта", поисковик совершенно спокойно выдаст список как сервисов, предоставляющих услуги электронной почты, так и список сайтов почтовых отделений, да еще вдобавок "разбавит" список сайтами Интернет-магазинов ("книги почтой" и т.д.). Тем не менее, этот недостаток в какой-то степени можно обойти конкретизацией вводимого термина. То есть, если вас интересует список сайтов, где Вы можете получить бесплатный e-mail адрес, то достаточно ввести в строку поиска вместо термина "почта" термин "e-mail". Правда, нет никакой гарантии, что Вы не попадете по предложенной ссылке на сайт компании по ведению почтовых рассылок.

Модерируемые поисковые машины - это сетевые ресурсы, находящиеся по постоянным контролем человека. То есть, ссылки в их базу данных попадают только после тщательного изучения их специальным человеком, который называется модератором. То есть, администрация сайта, который претендует на то, чтобы быть помещенным в базу данных поисковой машины, должна направить модератору поисковика запрос с информацией о своем сайте, то есть предоставить его описание и ключевые слова. Затем модератор в течение некоторого времени проверяет сайт на соответствие заявленной тематике, и выносит решение о занесении сайта в базу данных поисковой машины. Такой подход к созданию базы данных в какой-то степени более надежен, чем подход робота - "паука" - существует гарантия, что в базу данных поисковика не попадет сайт, содержание которого противоречит, например, действующему законодательству. По такому принципу построена, например, поисковая машина LIST.RU (http://www.list.ru). В больших поисковых машинах модератор обычно не один - для каждой категории ("Юмор", "Компьютеры", "Софт", "Железо") имеется свой модератор, называемый обычно гидом. Как правило, гид того или иного раздела представляет собой специалиста по тематике раздела, что позволяет максимально точно определить рубрику и подрубрику сайта в базе данных поисковой машины, что существенно облегчает жизнь простым пользователям. Хотя, исходя из личного опыта автора, описания сайтов в тематических каталогах поисковых машин, построенных по принципу "паука" и модерируемых, почти всегда примерно идентичны. Хотя встречаются и довольно забавные вещи: при поиске в тематических базах данных "паука" иногда можно наткнуться на описание сайта, который далек от заявленной категории. Например, при поиске информации о квалификаторах, я попал на сайт, посвященный: пуделям. С поиском по ключевым словам выигрывают, несомненно модерируемые поисковые машины - как правило, ключевые слова, заявленные в их базах, больше соответствуют действительности, чем те, что найдены "пауком".

Правда, могут быть гибриды "паука" и модерируемой поисковой машины - например, в базу того же Рамблера сайт может попасть и через запрос с описанием сайта, направленный администрации (модератору). Правда, в таких поисковиках, как правило, модераторов и гидов все же несколько меньше, чем в модерируемых поисковых машинах:

Рассмотрим теперь принципы поиска информации по зонам. Как известно, все сервера Интернета находятся в той или иной зоне (.com, .ru, .net, .by и т.д.), как правило (хотя и не всегда) определяющей язык, региональную расположенность и некоторые другие особенности сайта. Как правило, большинство русскоязычных ресурсов Сети располагается именно в зоне .ru, хотя некоторое количество русскоязычных домашних страничек располагаются на бесплатных зарубежных серверах (например, на http://www.members.xoom.com). Это связано с тем, что эти странички были созданы тогда, когда в Рунете еще не было ни одного серьезного сервера, предоставляющего место под сайты.

Кроме того, следует иметь в виду, что иногда компании могут для информирования о своем местоположении размещать сайты в домене второго уровня. Например, сайты, расположенные в домене spb.ru, гарантированно имеют владельцев, расположенных в Санкт-Петербурге. Такая дополнительная информация часто бывает очень полезной, если Вы нуждаетесь в партнерах, территориально расположенных только в определенной географической зоне. Но сразу же следует оговориться, что такой принцип построения адресов сайтов не является стандартом де-факто. То есть, сайт компании, расположенной в Санкт-Петербурге, вовсе не обязательно должен иметь адрес, заканчивающийся на spb.ru:

Что же касается поисковых машин, то среди них можно выделить три основных категории (по крайней мере, в Рунете):

1. Поисковые машины с русскоязычным интерфейсом, содержащим в единой базе ссылки на как русскоязычные, так и не русскоязычные сайты (например, http://www.list.ru).

2. Поисковые машины с русскоязычным и англоязычным интерфейсом (на выбор пользователя), содержащие в различных базах ссылки на русскоязычные и иноязычные ресурсы Сети (например, http://www.ru). При поиске в таких машинах имеется возможость как поиска в одной из баз, так и во всех базах одновременно.

3. Принципиально русскоязычные поисковые машины, с русскоязычным интерфейсом и наличием ссылок только на русскоязычные ресурсы Сети. (например, http://www.holms.ru).

Так что, если Вас интересует, например, информация о двигателях, изготавливаемых в Беларуси, нет смысла пытаться найти ссылки на нее в принципиально русских поисковых машинах. А вот поисковики с единой и разделенной базами данных вполне вероятно предоставят Вам подобные ссылки. С другой стороны, если Вы ищете партнеров для создания какого-либо российского проекта, то Вам имет смысл зайти в первую очередь на принципиально русскоязычные поисковые сервера. И почти ничего не даст поиск в зарубежных поисковых системах, таких, как Yachoo! (http://www.yachoo!.com). Кстати, для нормальной работы с зарубежными поисковыми серверами Вам надо достаточно хорошо знать английский.

Также при поиске информации в любой поисковой машине необходимо учитывать такой немаловажный фактор, как рейтинг сайта в поисковой машине. Как правило, рейтинг представляет собой два числа, располагающихся сразу после имени сайта в списке - среднее число заходов на сайт за весь период пребывания сайта в базе данных поисковой машины, и число заходов за сегодня. Второе число является менее объективным показателем популярности сайта, чем первое. То есть, если в описании сайта Вам предлагают золотые горы (что само по себе должно уже настораживать), а рейтинг составляет величину порядка 1-2 средних заходов за день, то скорее всего, Вы столкнетесь с сайтом с недоброкачественным содержанием, либо с сайтом, содержимое которого не обновлялось последние лет сто. Если же Вам предложили ссылку на сайт с лаконичным описанием, число заходов на который составляет величину порядка 100-200 и более заходов в день, то это почти наверняка говорит о том, что Вы столкнулись с профессионально сделанным информативным сайтом с хорошим интерфейсом.

Опубликовано в: Computer Rewiew N13(85)