Что такое роботы поисковики Яндекса и Google простыми словами

Что такое роботы поисковики Яндекса и Google простыми словами

Роботы-пауки у поисковых машин — это интернет-боты, в задачу которых входит систематический просмотр страниц в World Wide Web для обеспечения веб-индексации. Традиционно сканирование WWW-пространства осуществляется для того, чтобы обновить информацию о размещенном в сети контенте с целью предоставления пользователям актуальных данных о содержимом того или иного ресурса. О типах поисковых роботов и их особенностях и будет идти речь в данной статье.

Что такое роботы поисковики

Поисковые пауки могут именоваться еще и по-другому: роботы, веб-пауки, краулеры. Однако независимо от названия, все они заняты постоянным и непрерывным изучением содержимого виртуального пространства. Робот сохраняет список URL-адресов, документы по которым загружаются на регулярной основе. Если в процессе индексации паук находит новую ссылку, она добавляется в этот список.

Таким образом, действия краулера можно сравнить с обычным человеком за браузером. С тем лишь отличием, что мы открываем только интересные нам ссылки, а робот — все, о которых имеет информацию. Кроме того, робот, ознакомившись с содержимым проиндексированной страницы, передает данные о ней в специальном виде на сервера поисковой машины для хранения до момента запроса со стороны пользователя.

При этом каждый робот выполняет свою определенную задачу: какие-то индексируют текстовое содержимое, какие-то — графику, а третьи сохраняют контент в архиве и т.д.

Главная задача поисковых систем — создание алгоритма, который позволит получать информацию о контенте быстро и наиболее полно, ведь даже у гигантов поиска нет возможностей обеспечить всеобъемлющий процесс сканирования. Поэтому каждая компания предлагает роботам уникальные математические формулы, повинуясь которым бот и выбирает страницу для посещения на следующем шаге. Это, вкупе с алгоритмами ранжирования, является одним из важнейших критериев по которым пользователи выбирают поисковую систему: где информация о сайтах более полная, свежая и полезная.

Робот-поисковик может не узнать о вашем сайте, если на него не ведут ссылки (что возможно редко — сегодня уже после регистрации доменного имени упоминания о нем обнаруживаются в сети). Если же ссылок нет, необходимо рассказать о нем поисковой системе. Для этого, как правило, используются «личные кабинеты» веб-мастеров.

Что такое роботы поисковики

Какая главная задача поисковых роботов

Как бы нам ни хотелось, но главная задача поискового робота состоит совсем не в том, чтобы рассказать миру о существовании нашего сайта. Сформулировать ее сложно, но все же, исходя из того, что поисковые системы работают лишь благодаря своим клиентам, то есть пользователям, робот должен обеспечить оперативный поиск и индексацию размещенных в сети данных. Только это позволяет ПС удовлетворить потребность аудитории в актуальной и релевантной запросам выдаче.

Рекомендую прочитать информацию про пагинацию с точки зрения seo. Статья полезная и дополняет эту.

Конечно, роботы не могут проиндексировать 100% веб-сайтов. Согласно исследованиям, количество загруженных лидерами поиска страниц не превышает 70% от общего числа URL, размещенных в интернете. Однако то, насколько полно ваш ресурс изучен ботом, повлияет и на количество пользователей, перешедших по запросам из поиска. Поэтому и мучаются оптимизаторы в попытках «прикормить» робота, чтобы как можно быстрее знакомить его с изменениями.

Главная задача поисковых роботов

Роботы поисковики Яндекса

В Рунете Яндекс лишь в 2016 году подвинулся на вторую строчку по охвату месячной аудитории, уступив Google. Поэтому не удивительно, что у него наибольшее количество пауков, изучающих пространство, среди отечественных ПС. Перечислять их полный список бессмысленно: его можно увидеть в разделе «Помощь вебмастеру» > Управление поисковым роботом > Как проверить, что робот принадлежит Яндексу.

Все краулеры поисковика обладают строго регламентированным user-agent. Среди тех, с которыми обязательно придется встретиться сайтостроителю:

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий бот;
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) — индексирующий паук;
  • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — бот Яндекс.Картинок;
  • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — индексирует мультимедийные материалы;
  • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) — индексирует иконки сайтов.

Чтобы привлечь на свой сайт пауков Яндекса, рекомендуется выполнить несколько простых действий:

  • правильно настроить robots.txt;
  • создать RSS-фид;
  • разместить sitemap с полным списком индексируемых страниц;
  • создать страницу (или страницы), которые будут содержать ссылки на все документы ресурса;
  • настроить HTTP-статусы;
  • обеспечить социальную активность после публикации материалов (причем не только комментарии, а расшаривание документа);
  • интенсивное размещение новых уникальных текстов.

В пользу последнего аргумента говорит способность ботов запоминать скорость обновления контента и приходить на сайт с обнаруженной периодичностью добавления новых материалов.

Если же вы хотели бы запретить доступ краулерам Яндекса к страницам (например, к техническим разделам), требуется настроить файл robots.txt. Пауки ПС способны понимать стандарт исключений для ботов, поэтому сложностей при создании файла обычно не появляется.

Так, код

User-agent: Yandex

Disallow: /

запретит ПС индексировать весь сайт.

Кроме того, роботы Яндекса умеют учитывать рекомендации, указанные в мета-тегах. Пример: <meta name=»robots» content=»noarchive»/> запретит демонстрацию в выдаче ссылки на копию документа из архива. А добавление в код страницы тега <meta name=»robots» content=»noindex»/> укажет на то, что данный документ не нужно индексировать.

Полный список допустимых значений можно найти в разделе «Использование HTML-элементов» Помощи вебмастеру.

Роботы поисковики Яндекса

Роботы поисковики Google

Основной механизм индексации контента WWW у Google носит название Googlebot. Его механизм настроен так, чтобы ежедневно изучать миллиарды страниц с целью поиска новых или измененных документов. При этом бот сам определяет, какие страницы сканировать, а какие — игнорировать.

Для этого краулера важное значение имеет наличие на сайте файла Sitemap, предоставляемого владельцем ресурса. Сеть компьютеров, обеспечивающая его функционирование настолько мощна, что бот может делать запросы к страницам вашего сайта раз в пару секунд. А настроен бот так, чтобы за один заход проанализировать большее количество страниц, чтобы не вызывать нагрузку на сервер. Если работа сайта замедляется от частых запросов паука, скорость сканирования можно изменить, настроив в Search Console. При этом повысить скорость сканирования, к сожалению, нельзя.

Бота Google можно попросить повторно просканировать сайт. Для этого необходимо открыть Search Console и найти функцию Добавить в индекс, которая доступна пользователям инструмента Просмотреть как Googlebot. После сканирования появится кнопка Добавить в индекс. При этом Google не гарантирует индексацию всех изменений, поскольку процесс связан с работой «сложных алгоритмов».

Боты Google также представляются определенным user-agent. Например, Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) — индексирующий Googlebot. Googlebot-Image/1.0 — Google картинки.

Заблокировать доступ Googlebot к всему сайту или его каталогам можно с помощью все того же файла robots.txt. Например, «прочитав» в файле код

User-agent: googlebot

Disallow: /books/

паук откажется от индексации каталога books. Боты Google полностью подчиняются «Стандарту исключений для роботов».

Чтобы понять, как пауки Google видят ваш сайт (с учетом запретов), рекомендуется воспользоваться инструментом Сканер Google для сайтов. И почувствовать себя ботом.

Роботы поисковики Google

Полезные инструменты

Перечислить все инструменты, которые помогают оптимизаторам работать с ботами, достаточно сложно, поскольку их масса. Кроме упомянутого выше «Посмотреть как Googlebot», стоит отметить анализаторы файлов robots.txt Google и Яндекса, анализаторы файлов Sitemap, сервис «Проверка ответа сервера» от российской ПС. Благодаря их возможностям, вы будете представлять, как выглядит ваш сайт в глазах паука, что поможет избежать ошибок и обеспечить наиболее быстрое сканирование сайта.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: