Содержание статьи

Googlebot – это поисковый робот, который использует Google.
Поисковый робот (web crawler, или веб-паук) – это специальная программа, которая предназначена для сканирования веб-страниц в автоматическом режиме и передачи собранных данных поисковой системе для показа информации пользователю при запросе. Боты не проводят анализ данных, а только занимаются их передачей на сервера поисковых систем.
У поисковых роботов есть несколько названий: краулеры, веб-пауки, боты. Если вы слышите любое из этих слов, знайте, что речь идет об аналогичных программах. Кроме HTML-страниц, такие краулеры сканируют документы и других форматов. Например, Microsoft Excel (.xls, .xlsx), Microsoft Word (.doc, .docx), Microsoft PowerPoint (.ppt, .pptx) и Adobe PDF (.pdf). Они попадают на сайт, передают содержимое в индекс и ищут ссылки, с помощью которых попадают на другие страницы. Для того, чтобы ускорить индексацию, создают файлы robots.txt и XML Sitemap.
А если вы хотите просмотреть, есть ли URL в индексе Google, можно произвести проверку в сервисе Google Search Console.
Если вы обнаружили, что ваш ресурс или страница не индексируется, нужно проделать следующее:
- В Google Search Console перейти в Инструмент проверки URL.
- В строку поиска вставить URL-адрес, который необходимо добавить в индекс Google.
- Подождите, пока система проверит адрес, а затем нажмите «Запросить индексирование».
Для чего нужен поисковый робот
Поисковые роботы – это основной компонент работы поисковой системы и связующая нить между пользователем и опубликованным контентом. Если страница не была просканирована и не попала в базу поисковика, ее не будет в выдаче. И тогда увидеть ее можно будет исключительно по прямой ссылке.
Краулеры также имеют влияние на ранжирование. Например, неизвестные боту API и функции JavaScript не дают возможности правильно просканировать сайт. В итоге на сервер попадут страницы с ошибками, а часть содержимого на них может оказаться в слепой зоне робота.
Если взять во внимание, что поисковые системы на последующих этапах к полученным данным применяют специальные алгоритмы для того, чтобы показать пользователю наиболее релевантную информацию, то некачественные страницы могут упасть на дно поиска.
Поисковые роботы Google
Основные поисковые роботы Google применяются при формировании индексов Google Поиска, анализа и выполнения других операций сканирования. Они всегда соблюдают правила из файла robots.txt. Ниже мы рассмотрим самые известные и популярные боты:
- Googlebot – к ним можно отнести роботов двух типов: для мобильных и десктопных версий обычных сайтов. С середины 2019 года для новых и адаптированных под мобильные устройства ресурсов применено первостепенное сканирование именно мобильных версий, что означает, что большую часть запросов будут обрабатывать мобильные боты.
- Googlebot Images – краулер для индексации изображений. Если понадобится, то можно запретить индексацию всех картинок на ресурсе при помощи такой директивы в robots.txt:
User-agent: Googlebot-Image
Disallow: /
- Googlebot News – бот, который добавляет материалы в Google Новости.
- Googlebot Video – краулер, индексирующий видеоконтент.
- Google Favicon – робот, собирающий фавиконы сайтов (он не следует правилам, указанным в файле robots.txt).
- Google Store Bot – он сканирует страницы с данными о товаре, страницы корзины и оплаты.
- APIs-Google – агент пользователя для отправки PUSH-уведомлений. Эти уведомления применяются, чтобы веб-разработчики могли оперативно получить информацию о каких-либо изменениях на ресурсе без лишней нагрузки серверов Гугл.
- AdsBot, AdsBot Mobile Web Android, AdsBot Mobile Web – краулеры, проверяющие уровень качества рекламы на различных видах устройств.
Как работает Google бот?
Робот Google – это сканер, который изучает разнообразные сайты и имеет влияние на успех SEO. Для того, чтобы детальнее узнать, как же работает этот процесс, рассмотрим детальнее каждый шаг.
На первом этапе, когда робот рассматривает площадку, он переходит к файлу robots.txt, чтобы установить его область действия (в последнем разделе файла robots.txt).
Googlebot сканирует только первые 15 Мб содержимого HTML-файла или текстового файла поддерживаемого формата. Получение кода CSS и JavaScript и других ресурсов из HTML-файла происходит по отдельности и согласно действующим ограничениям на размер файла. После 15 Мб робот прекращает сканировать файл и при индексировании учитываются только вот те первые 15 Мб содержимого. Но для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут использоваться другие ограничения.
После этого карта сайта и ее имеющиеся данные о нем помогают передвигаться по страницам ресурса. Если бот перейдет по новой ссылке, она автоматически будет внесена в список ссылок. Более того, проверяя в базе данных Google сохраненные раннее ссылки, будут также отслеживаться вероятные изменения в них. И, если разница будет замечена, то внесутся нужные изменения.
Если вы кик-либо изменили заголовки и описания содержимого сайта или метатеги, то не ждите этих изменений сразу на странице результатов Гугл.
Google не перемещается по вашему ресурсу параллельно с загрузкой ваших ссылок и может снова попасть на ваш ресурс через большой промежуток времени. Каким именно будет это время – неизвестно, и это является частью скрытой информации, которая известна только Google.
Как оптимизировать сайт для Googlebot?
Если ваш сайт не оптимизирован под робота Google, шансы на привлечение аудитории будут меньше. Ниже расскажем, как правильно его оптимизировать для Google бота.
- Не перегружайте страницы площадки такими инструментами, как javascript, flash, DHTML, Ajax. Робот быстро проверяет HTML, но с другими кодами работает медленно.
- Если на сайт постоянно добавляется новая информация, то Googlebot будет запускать ваш ресурс через меньшие отрезки времени.
- Если сайт долго не обновлять, а потом внести сразу и много изменений, нужно перейти в Google Search Console и сформировать запрос, чтобы Гугл посетил ваш ресурс в ближайшее время.
- Использование внутренних ссылок поможет Google Crawler хорошо работать на вашей площадке.
- Создайте файл sitemap.xml для своего ресурса. Отображение сайта – это один из вариантов взаимодействия вашего ресурса и G
- Создавайте полезный и уникальный контент. Google все чаще ориентируется на актуальность и новизну.
Есть несколько сервисов, с помощью которых можно проверить производительность Google. Google Search Console и плагин Yoast – ваши инструменты-помощники. Например, чтобы просмотреть ошибки, с которыми поисковый робот имеет дело при навигации по сайту, можно использовать Консоль и узнать перечень этих ошибок.
Еще один метод управлять работой Googlebot на сайте – получить справку из файла robots.txt. Далее в статье рассмотрим, как это сделать.
Рекомендации роботам по доступу к контенту сайта
Рекомендации по индексации данных на сайте можно устанавливать с помощью файлов sitemap.xml и robots.txt:
- Файлы Sitemap – это метод помочь роботу Google понять вашу площадку. По рекомендации Гугл, карты сайта лучше использовать не всегда, а в конкретных случаях:
– У вас новый сайт и на него ведет мало внешних ссылок;
– Ресурс действительно довольно большой;
– На сайте присутствует архив содержательных страниц, которые плохо связаны друг с другом или изолированы;
– На вашем ресурсе есть мультимедийный контент, он отображается в Новостях Google или применяет другие аннотации, совместимые с файлами.
В sitemap.xml можно задать приоритет страниц и частоту обновлений, используя теги <priority> и <changefreq>. Приоритет страницы указывается в зависимости от ее значимости для продвижения (от 0,0 до 1,0). Частота обновлений устанавливается в зависимости от типа страницы и ресурса – от статичных страниц до новостных ресурсов.
- В robots.txt задаются правила сканирования страниц. Для SEO-продвижения важно, чтобы дубли, служебные страницы и остальной малополезный контент не попадал в индекс. Но иногда краулеры все равно могут проиндексировать даже закрытые страницы. Если запретить индексацию каких-то данных на сайте нужно в любом случае, то можно использовать метатег robots или же сделать их доступными для посетителей после авторизации.
Для запрета индексации в robots.txt применяется директива Disallow. Например, для запрета доступа любых ботов к ресурсу, указываются такие строки кода:
User-agent: *
Disallow:
При внесении директив их порядок может быть разным. После этой команды открыть доступ для индексации какого-либо раздела сайта можно с помощью директивы Allow.
Помимо этих способов можно еще удалить контент с площадки (что является одним из самых верных способов предотвращения появления данных в Google) или же защитить файлы паролем (это обеспечит доступ к ним только определенным пользователям).
Сложности, которые могут возникнуть при работе поисковых роботов
- Высокая нагрузка на сервер
Такие ситуации возможны из-за большого добавления информации на сайт (например, добавление карточек товара в интернет-магазин) или же частых посещений ресурса краулерами (инсценирующих посещения пользователей). Это может привести к сбоям работы ресурса или сделать его вовсе недоступным на время.
Роботы поисковых систем посещают сайты по расписанию и согласно определенным лимитам, поэтому обычно не должны перегружать сервер. Но нагрузка может вырасти (как в ситуации с добавлением карточек товара) и тогда можно вручную сократить частоту обхода страниц ботами или задать настройки так, чтобы он возвращал HTTP-код 429. Краулеры считывают этот ответ как знак о проблемах с нагрузкой и автоматически снижают частоту обращений к серверу.
Иногда сайт под видом ботов могут атаковать хакеры. Чтобы знать цели, по которым боты посещают ресурс, и контролировать возможные проблемы, нужно отслеживать логи сервера и динамику нагрузки в панели хостинг-провайдера. Слишком высокие значения могут говорить о проблемах, связанных с частым доступом роботов к ресурсу.
- Медленная или неполная индексация сайтов
Роботу сложнее обойти сайт полностью, если у него много страниц и поддоменов. Если перелинковки нет, а структура ресурса понятна не сразу, индексация может длиться месяцы.
Наличие дублей и ошибки в верстке также задерживают попадание страниц в поисковую выдачу. А это, в свою очередь, отображается негативно на продвижении сайта.
- Доступ фейковых ботов к сайту
Иногда хакеры пытаются получить доступ к ресурсу под видом роботов Google. Но можно легко проверить, сканирует вашу площадку поисковый робот Google или кто-то другой:
- В логах сервера хостинг-провайдера скопируйте IP-адрес, с которого совершался запрос к сайту.
- Проверьте этот IP с помощью сервиса MyIp.
- После этого проверьте адрес, указанный в строке IP Reverse DNS (Host). Этот адрес должен совпадать с исходным в логах сервера. Если он не совпадает, значит, имя бота является поддельным.
Подведем итоги
В статье мы рассмотрели поисковых роботов и поняли, что они сканируют и индексируют сайты. Googlebot является одним их самых известных ботов, он сам ищет новые веб-страницы и работает с ними. Но можно и вручную ускорить индексацию, сообщив о появлении новых URL с помощью определенных инструментов, таких как Google Search Console. Еще мы рассмотрели, как можно управлять индексацией и каких сложностей можно ожидать от работы с поисковыми роботами. Теперь вам проще будет с ними справиться, так как вы уже знаете, что и как нужно делать.





