Поисковые системы.

Поисковые системы.

Здравствуйте дорогие читатели!

Как устроены поисковые системы? Чтобы в полной мере использовать поисковые системы с их возможностями, необходимо хотя бы на элементарном уровне понимать, как они действуют. Все поисковые системы состоят из четырёх компонентов: агентов, индексирующей программы (вместе составляемым её индексом), поисковой программы (собственно поисковая машина) и пользовательского интерфейса на базе HTML.

Далее они рассматриваются по порядку.

? Агенты. В зависимости от выполняемых функций их ещё называют пауками, кроулерами или роботами. Это программы, используемые поисковыми сервисами для сканирования сайтов Интернета с целью поиска новых и изменённых сайтов, сбора с них информации и передачи её индексирующим программ поискового сервиса. Одни поисковые системы тщательнее и чаще сканируют некоторые наиболее популярные сайты (то есть те, на которые в Интернете имеется больше всего ссылок). тогда как у других нет таких предпочтений.

Существует ещё один способ внесения информации о конкретных веб-страницах в базу данных поисковой машины: владельцы могут сами передавать машине их URL, воспользовавшись специальными ссылками, которые имеют на начальных страницах в большинстве поисковые системы. Поисковые системы анализируют содержимое заданной страницы, чтобы выяснить, не является ли она <<спамом>> (то есть страницей, вводящей в заблуждение поисковую машину и её пользователей относительно рейтинга сайтов, на которые на ней есть ссылки) либо неприемлемой по другой причине. Если всё в порядке, страница индексируется, и информация о ней добавляется в базу данных.

? Индексирующая программа и индекс. Когда агент поискового сервиса обнаруживает новую страницу, он передаёт информацию о ней индексирующей программе, которая сканирует и заносит каждое слово в специальный указатель, называемый индексом. Помимо основного текста могут индексироваться и другие составляющие страницы: URL, метатеги, гиперссылки и имена файлов изображений.

? Собственно поисковые системы. Такие программы находят в базе данных информацию о страницах, отвечающих введённому пользователем критерию. Помимо поиска она выполняет ещё одну задачу: сортирует найденные записи таким образом, чтобы наиболее важные из них отображались в начале списка результатов поиска.

В алгоритме оценки важности записей может учитываться множество факторов, в том числе популярность страницы (определяется по количеству ссылок на неё с других страниц); частота использования на ней искомых слов, расстояние между ними, местонахождение этих слов (например, предпочтение может отдаваться страницам, на которых искомые слова содержаться в заголовках) и т. д.

? Интерфейс на базе HTML. Используется для ввода критерия поиска и вывода результатов. При входе на сайт в какие-либо поисковые системы на экране обычно сразу появляется начальная страница с полем для ввода основного критерия и других уточняющих элементов, а также ссылки на тематические базы данных (где есть свои ссылки на изображение, новости и т. п.).


Карта сайта


Информационный сайт Webavtocat.ru