Как работают поисковые системы

Поиск в Google, Яндекс или иной поисковой системе сегодня представляется нам чем-то совершенно естественным и даже обыденным, но так было не всегда. Когда интернет был совсем молод, поисковиков не существовало, а немногочисленные пользователи тогда ещё далеко не всемирной сети были вынуждены записывать названия сайтов в файл и вручную проверять их обновления. Тем не менее, отсутствие каких-либо индексов мало кого из них смущало, так как количество сайтов по сравнению с тем, что мы имеем сейчас было просто ничтожным.


Иное дело программисты, они смотрели куда дальше и понимали, что без создания единой базы сайтов интернет не сможет развиваться. В 1990 году монреальскими студентами была разработана программа под названием Арчи, ставшая прототипом поисковых систем. Переходя от одного FTP-сервера к другому, она скачивала списки расположенных на них файлов и составляла из них базу данных, предоставляя таким образом возможность поиска по их именам. Недостаток её был очевиден — база не была централизованной и не содержала текст веб-страниц.

Это нужно было как-то исправить и вот в 1993 году разработчик Мэтью Грэй из Массачусетского технологического института создаёт первого поискового робота, способного индексировать текстовое содержимое сайтов и выдавать результаты поиска по запросу. Так появилась Wandex — вероятно, первая в мире поисковая система. По нынешним меркам назвать её полноценной, конечно, трудно. Алгоритмы Wandex, впрочем, равно как и всех ранних поисковых систем были весьма далеки от совершенства. Релевантные ссылки выдавались безо всякого семантического анализа и ранжирования, поэтому нет ничего удивительного в том, что первым поисковикам приходилось конкурировать с тогда ещё популярными каталогами веб-ресурсов.

Search Robot

Алгоритмы современных поисковых систем — Google, Яндекса, МайлРу и им подобные куда более сложны и изощрённы. Раскрыть все их тонкости в рамках одной статьи задача едва ли выполнимая, поскольку это заняло бы слишком много времени, к тому же некоторые алгоритмы держатся компаниям в строгом секрете, но в целом и в общем дать некое представление о принципах работы поисковых систем представляется нам вполне реальным.

Весь процесс от сбора до выдачи данных состоит из трёх этапов: сканирование, индексация и ранжирование. Всё начинается с того, что поисковая программа-робот или иначе краулер, используя полученную в ходе предыдущих сканирований базу URL, посещает миллионы сайтов, переходит по имеющимся на них ссылкам и производит первичный анализ содержимого страниц. В процессе сканирования поисковыми роботами обнаруживается новый и изменённый контент, устанавливаются систематические связи между страницами и сайтами, выявляются нерабочие ссылки. Не нужно, однако, думать, что краулер посещает каждый сайт. Чтобы ресурс попал в базу отслеживаемых, он должен быть достаточно важен с точки зрения поисковой системы, но если он в неё всё же попадает, робот начинает посещать её постоянно.

Собрав контент с разных сайтов, поисковик переходит к индексации — занесению данных в индексную базу, из которой впоследствии будет осуществляться выдача. На этом этапе происходит сортировка информации по разным параметрам. С применением лексических и морфологических алгоритмов страницы разбиваются на части, извлекаются и анализируются ключевые слова, метатеги, перекрестные ссылки. Индексация — едва ли не самая сложная задача, стоящая перед поисковиками, что неудивительно, ведь в процессе выдачи приходится учитывать всю вариативность человеческого языка. Это означает, что поисковая система должна буквально с полуслова понимать пользователя, ведь далеко не всегда запросы бывают полностью корректными, взять хотя бы нередко допускаемыми людьми грамматические ошибки или неверные склонения.

Spider Bot

На третьем и последнем этапе выполняется ранжирование, а если говорить более простым языком, определение того, какая информация по одному и тому же запросу должна выводиться в списке поисковой выдачи первой, какая второй, третьей, четвёртой и так далее. По неофициальным данным, для определения релевантности поисковый гигант Google использует более 200 различных факторов, среди которых самые почётные места занимают уникальность и актуальность.

С момента своего появление поисковые системы проделали огромный путь. Начав некогда с простого поиска по ключевым словам, сегодня поисковики используют сложные алгоритмы отбора, предлагая пользователям только самую полезную и актуальную информацию. Увы, наряду с борьбой за чистоту информационного пространства со стороны поисковых компаний нередко можно видеть нарушение прав на защиту, получение и распространение информации. В какой-то мере это продиктовано необходимостью, но эта же необходимость может привести к тому, что бывший некогда символом свободы интернет со временем превратится в инструмент контроля над сознанием, став ещё одним средством управления общественным мнением.

0

Если Вам нравятся статьи, заметки и другой интересный материал представленный на сайте Белые окошки и у вас есть непреодолимое желание поддержать этот скромный проект тогда выберите один из двух видов стратегии поддержки на специальной странице - Страница с донатом

Поделиться в соц сетях:

Подпишитесь на обновления этого блога по RSS, Email или Twitter!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Авторизация
*
*
Войти с помощью: 
Регистрация
*
*
*
Войти с помощью: 
Генерация пароля