Все крупнейшие поисковые системы интернета имеют свою определенную структуру непохожую на все остальные. Однако здесь важным будет являться то, что существуют также и общие принципы их функционирования. Различие может быть лишь в том, что она может реализоваться в виде определенного взаимодействия самих механизмов поисковых систем. К основным поисковым системам, заслужившим большой авторитет среди пользователей интернета относят «Яндекс» и «Google», все остальные системы (Mail, Rambler, Aport), созданные раньше в какой-то момент отошли на второй план.
Итак, сама поисковая система состоит из трех основных компонентов, включающая в себя определенные механизмы. К ним можно отнести модуль индексирования, базу обработанных данных и поисковый сервер. Модуль индексирования всех поисковых систем состоит их трех программных частей. К ним относят программу, скачивающую веб-страницы (так называемый паук), затем программу, которая самостоятельно проходит по всем существующим ссылкам, находящимся на веб-страницах и робот-индексатор, с помощью которого все скачанные страницы анализируются и обрабатываются с помощью заложенных алгоритмов.
При помощи программы «Паук» при скачивании страницы извлекаются все внутренние ссылки, а также сам HTML-код страницы. При скачивании эта программа-робот использует протоколы http. При передаче запроса робот получает текст, содержащий важную служебную информацию и сам документ. Ссылки роботы извлекают из самих тегов станицы. При этом наряду с этим обрабатываются и редиректы, то есть перенаправления с одной страницы на другую. При полной скачке страницы она автоматически сохраняется в следующем формате: вначале URL страницы, затем дата, http заголовок и тело странички, то есть сам программируемый код.
Затем следующая программа «Crawler» выделяет все необходимые ссылки на веб-странице и определяет путь движения паука, основываясь на ссылки или же список адресов. И уже следуя по найденным ссылкам, эта программа осуществляет поиск других документов, не найденных ранее.
Робот-индексатор анализирует скачанные страницы, путем разбивки страниц на составные части, применяя при этом определенные лексические и морфологические заложенные алгоритмы. Робот подвергает анализу сам текст документа, заголовки, специальные теги, определяет стилистические и структурные особенности текста и многое другое.
Таким образом, при помощи модуля индексации поисковая система способна по найденным ссылкам обходить большое количество интернет-ресурсов, скачивать страницы, а также извлекать все новые и новые ссылки из получаемых из интернета документов и производить тщательный анализ всего найденного.