+7 (4872) 250-195, +7 (495) 508-32-49

Поиск в Интернет

Одним из первых инструментов поиска в интернете была система Archie. Она появилась в 1990 году, еще до появления World Wide Web. А первой поисковой системой для World Wide Web стала Wandex, созданная в 1993 году. В 1994 году появился WebCrawler, в котором впервые был применен принцип индексирования интернет-страниц специальными поисковыми роботами, являющийся в настоящее время стандартом функционирования поисковых систем.

В 1994-1995 годах было запущено еще несколько поисковых систем: Infoseek, Excite, Open text, Magellan, SAPO, Lycos, а также AltaVista и Yahoo!, ставшие лидерами в области поиска в интернете. В настоящее время Yahoo! занимает второе место среди поисковиков в мире.

В 1997 году в Стэнфордском университете Сергей Брин и Ларри Пейдж разработали и запустили поисковую систему Google. В 1998 году была зарегистрирована компания Google. Сейчас Google – самый популярный поисковик в мире (обслуживает около 63% всех поисковых запросов на планете), а Google Inc. – одна из самых успешных интернет-компаний.

Поисковые системы - Россия

В России первые собственные поисковые системы появились в 1996-1997 годах. 8 октября 1996 года Дмитрий Крюков разместил в сети поисковик Рамблер. Это название он придумал, открыв англо-русский словарь и увидев слово «rambler» – «скиталец, странник, бродяга». Ему понравилось это слово, поскольку оно вполне отражает суть работы поискового робота. В настоящий момент контрольный пакет Rambler Media Group принадлежит холдингу «Проф-Медиа»

23 сентября 1997 года была анонсирована поисковая машина Яндекс, запущена же она была в ноябре 1997 года. Это название появилось как комбинация слов «yet another indexer» («еще один индексатор») – «yandex». Впоследствии было предложено использовать в качестве первой буквы названия русскую «Я». Таким образом появилось слово «Яndex». Артемий Лебедев, начиная работу над дизайном поисковой системы, высказал следующее предположение: «Если первую букву I в слове Index перевести на русский язык, получится Яndex». Такой вариант изначально не предполагался, однако эта трактовка стала весьма популярна.

11 ноября 1997 года была презентована поисковая система Апорт, которая существовала еще с февраля 1996 года, но осуществляла поиск только по нескольким ресурсам. В настоящее время принадлежит компании «Голден Телеком» и не имеет значительной доли на рынке.

Долгое время самым популярным поисковиком в России был Рамблер, однако в первой половине 2000-х его обошел Яндекс. В настоящее время, согласно различным исследованиям, доля Яндекса на российском рынке составляет 50-70% (в качестве примера см. таблицу 1).

Кроме вышеупомянутых, существуют и другие российские поисковые системы:

  1. Поиск портала Mail.ru, который до июня 2007 года использовал поисковую машину Google, а в настоящее время пользуется собственной – GoGo.ru.
  2. Nigma.ru – поисковая система, позиционирующаяся как интеллектуальная. Первая российская система, использующая кластеризацию поиска.

Таблица 1. Сравнение поисковых систем по количеству переходов за июнь 2009

НазваниеКоличество переходовДоля, %
1. Яндекс 166 544 651 48,80%
2. Google 119 576 934 35,25%
3. Mail.ru 31 040 521 9,15%
4. Рамблер 10 627 165 3,13%
5. Live.com 4 513 708 1,33%
6. Bing 2 722 267 0,80%
7. Nigma.ru 1 953 336 0,58%

*По данным SpyLog

В общем виде функционирование поисковых систем можно представить как два основных этапа:

  1. Сбор и индексирование информации в интернете
  2. Обработка, ранжирование и выдача собранной информации по запросам пользователей

Поисковый робот

Сбор информации в интернете осуществляется специальной программой – поисковым роботом (другие названия – паук, краулер). Она является составной частью поисковой системы и занимается посещением интернет-страниц с целью занесения информации о них в базу данных поисковой системы. Его задача – обойти как можно больше документов в сети за определенное время, обеспечив полноту поиска (количество документов) и его актуальность (свежесть документов, хранящихся в индексе поисковика).

Фактически поисковый робот является текстовым браузером, который «видит» html-код страниц. Поисковая система одновременно направляет множество поисковых роботов, каждый из которых обходит свой определенный сегмент интернета. Порядок обхода страниц и частота посещений определяются алгоритмами каждой конкретной поисковой сети.

Паук анализирует содержимое страницы и сохраняет его на специальном сервере поисковой системы, которой принадлежит. Переход на дальнейшие страницы паук чаще всего осуществляет по ссылкам, размещенным на рассматриваемой странице. Так же можно вручную добавлять сайты в очередь на индексирование.

Индексация

Программное обеспечение поисковой машины читает и интерпретирует исходный код собранных страниц. Обработка поисковой машиной поступающей информации возможна только как сравнение этой информации (ее структуры, ее организации) с заранее заложенными в память машины формальными правилами.

Большинство поисковых систем построены на основе инвертированного индекса – скачиваемые документы разбиваются на слова, а затем по словам составляется таблица соответствий слов и документов, содержащих эти слова. Классическим примером инвертированного индекса является глоссарий терминов в конце книги, указывающий на какой странице (или, выражаясь языком поисковой системы, в каком документе) встречается указанный термин.

Раздельные слова приводятся к общему виду, например по падежу, числу или роду. Таким образом, одинаковые слова, находящиеся в разных формах преобразовываются к одному и тому же виду.

При использовании алгоритма инвертированного индекса возникает ряд ограничений на файл индекса для того, чтобы не допустить чрезмерного его разрастания. Так, предлог «в» встречающийся достаточно часто в каждом документе или даже предложении, привел бы к тому, что таблица соответствия этих слов и страниц, содержащих слова, содержала бы миллионы значений. Поэтому поисковыми системами используются ограничения в виде так называемых «стоп-слов», игнорируемых индексатором. В списки таких слов попадают чрезмерно короткие слова, а также наиболее часто употребляемые предлоги, артикли и другие слова, редко использующиеся при поиске, но часто использующиеся в документах.

Полученный набор слов с помощью специальных алгоритмов сравнивается на предмет поиска дублей в базе. Документы, сочтенные дублями, либо не участвуют в поиске, либо объединяются в выдаче («склеиваются»).

Ранжирование сайта

Позиция определенного сайта в выдаче поисковых систем по определенному запросу зависит от множества факторов. Их можно разделить на две большие группы:

  1. Внутренние факторы
  2. Внешние факторы

К внутренним факторам относятся:

  1. текстовое оформление (объем текста на странице, количество «ключевых слов» по которым осуществлялся поиск, их плотность и положение в тексте)
  2. соответствие содержания тегов «Title» и мета-тегов «Description» и «Keywords» запросу
  3. наличие «ключевых слов» запроса в тексте исходящих ссылок и теге «Alt» изображений
  4. структура сайта

К внешним факторам относятся:

  1. количество внешних ссылок на страницу
  2. качество и релевантность страниц, ссылающихся на рассматриваемую страницу
  3. наличие сайта в каталогах