Зміст статті

Googlebot – пошуковий робот, який використовує Google.
Пошуковий робот (web crawler, або веб-павук) – це спеціальна програма, яка призначена для сканування веб-сторінок в автоматичному режимі та передачі зібраних даних до пошукової системи для показу інформації користувачеві при запиті. Боти не проводять аналіз даних, лише займаються їх передачею на сервера пошукових систем.
Пошукові роботи мають декілька назв: краулери, веб-павуки, боти. Якщо ви чуєте будь-яке з цих слів, знайте, що йдеться про аналогічні програми. Окрім HTML-сторінок, такі краулери сканують документи ще й інших форматів. Наприклад, Microsoft Excel (.xls, .xlsx), Microsoft Word (.doc, .docx), Microsoft PowerPoint (.ppt, .pptx) та Adobe PDF (.pdf). Вони потрапляють на сайт, передають вміст до індексу та шукають посилання, за допомогою яких потрапляють на інші сторінки. Щоб прискорити індексацію, створюють файли robots.txt та XML Sitemap.
А якщо ви хочете переглянути, чи є URL в індексі Google, можна провести перевірку у сервісі Google Search Console.
Якщо ви виявили, що ваш ресурс або сторінка не індексується, потрібно зробити наступне:
- У Google Search Console перейдіть до Інструменту перевірки URL.
- У рядок пошуку вставити URL-адресу, яку потрібно додати до індексу Google.
- Зачекайте, доки система перевірить адресу, а потім натисніть «Запросити індексування».
Для чого потрібен пошуковий робот
Пошукові роботи – це основний компонент роботи пошукової системи та сполучна нитка між користувачем та опублікованим контентом. Якщо сторінка не була просканована та не потрапила до бази пошуковика, її не буде у видачі. І тоді побачити її можна буде виключно за прямим посиланням.
Краулери також впливають на ранжування. Наприклад, невідомі боту API та функції JavaScript не дозволяють правильно просканувати сайт. У результаті на сервер потраплять сторінки з помилками, а частина вмісту на них може опинитися у сліпій зоні робота.
Якщо взяти до уваги, що пошукові системи на наступних етапах до отриманих даних застосовують спеціальні алгоритми для того, щоб показати користувачу найбільш релевантну інформацію, то неякісні сторінки можуть впасти на дно пошуку.
Пошукові роботи Google
Основні пошукові роботи Google застосовуються при формуванні індексів Google Пошуку, аналізу та виконання інших операцій сканування. Вони завжди дотримуються правил файлу robots.txt. Нижче ми розглянемо найвідоміші та найпопулярніші боти:
- Googlebot – до них можна віднести роботів двох типів: для мобільних та десктопних версій звичайних сайтів. З середини 2019 року для нових та адаптованих під мобільні пристрої ресурсів застосовано першочергове сканування саме мобільних версій, що означає, що більшість запитів будуть обробляти мобільні боти.
- Googlebot Images – краулер для індексації зображень. Якщо знадобиться, можна заборонити індексацію всіх картинок на ресурсі за допомогою такої директиви в robots.txt:
User-agent: Googlebot-Image
Disallow: /
- Googlebot News – бот, який додає матеріали до Google Новини.
- Googlebot Video – краулер, що індексує відеоконтент.
- Google Favicon – робот, який збирає фавікони сайтів (він не дотримується правил, вказаних у файлі robots.txt).
- Google Store Bot – він сканує сторінки з даними про товар, сторінки кошика та оплати.
- APIs-Google – агент користувача для відправки PUSH-повідомлень. Ці повідомлення застосовуються, щоб веб-розробники могли оперативно отримати інформацію про будь-які зміни на ресурсі без зайвого навантаження серверів Гугл.
- AdsBot, AdsBot Mobile Web Android, AdsBot Mobile Web – краулери, які перевіряють рівень якості реклами на різних видах пристроїв.
Як працює Google бот?
Робот Google – це сканер, який вивчає різноманітні сайти та має вплив на успіх SEO. Для того, щоб детальніше дізнатися, як працює цей процес, розглянемо детальніше кожен крок.
На першому етапі, коли робот розглядає майданчик, він переходить до файлу robots.txt, щоб встановити його область дії (в останньому розділі файлу robots.txt).
Googlebot сканує лише перші 15 Мб вмісту HTML-файлу або текстового файлу формату, що підтримується. Отримання коду CSS та JavaScript та інших ресурсів з HTML-файлу відбувається окремо та відповідно до чинних обмежень на розмір файлу. Після 15 Мб робот припиняє сканувати файл і при індексуванні враховуються тільки ті перші 15 Мб вмісту. Але для інших пошукових роботів Google, таких як Googlebot Video та Googlebot Image можуть використовуватися інші обмеження.
Після цього карта сайту та її наявні дані про нього допомагають пересуватися сторінками ресурсу. Якщо бот перейде за новим посиланням, воно автоматично буде внесено до списку посилань. Більше того, перевіряючи в базі даних Google збережені раніше посилання, також будуть відстежуватися ймовірні зміни в них. І якщо різниця буде помічена, то внесуться потрібні зміни.
Якщо ви змінили будь-які заголовки та описи вмісту сайту або метатеги, то не чекайте цих змін відразу на сторінці результатів Гугл.
Google не переміщається по вашому ресурсу паралельно із завантаженням ваших посилань і може знову потрапити на ваш ресурс через великий проміжок часу. Яким саме буде цей час – невідомо, і це є частиною прихованої інформації, яка відома лише Google.
Як оптимізувати сайт для Googlebot?
Якщо ваш сайт не оптимізований під робота Google, шанси на залучення аудиторії будуть меншими. Нижче розповімо, як правильно його оптимізувати для Google робота.
- Не перевантажуйте сторінки майданчика такими інструментами, як javascript, flash, DHTML, Ajax. Робот швидко перевіряє HTML, але з іншими кодами працює повільно.
- Якщо на сайт постійно додається нова інформація, Googlebot запускатиме ваш ресурс через менші відрізки часу.
- Якщо сайт довго не оновлювати, а потім внести відразу і багато змін, потрібно перейти до Google Search Console і сформувати запит, щоб Гугл відвідав ваш ресурс найближчим часом.
- Використання внутрішніх посилань допоможе Google Crawler добре працювати на вашому майданчику.
- Створіть файл sitemap.xml для свого ресурсу. Відображення сайту – це один із варіантів взаємодії вашого ресурсу та Googlebot.
- Створюйте корисний та унікальний контент. Google все частіше орієнтується на актуальність та новизну.
Є декілька сервісів, за допомогою яких можна перевірити продуктивність Google. Google Search Console та плагін Yoast – ваші інструменти-помічники. Наприклад, щоб переглянути помилки, з якими пошуковий робот має справу при навігації по сайту, можна використовувати Консоль і дізнатися про список цих помилок.
Ще один метод керувати роботою Googlebot на сайті – отримати довідку з файлу robots.txt. Далі у статті розглянемо, як це зробити.
Рекомендації роботам щодо доступу до контенту сайту
Рекомендації щодо індексації даних на сайті можна встановлювати за допомогою файлів sitemap.xml та robots.txt:
- Файли Sitemap – це спосіб допомогти роботу Google зрозуміти ваш майданчик. За рекомендацією Google, карти сайту краще використовувати не завжди, а в конкретних випадках:
– У вас новий сайт та на нього веде мало зовнішніх посилань;
– Ресурс справді досить великий;
– На сайті є архів змістовних сторінок, які погано пов’язані один з одним або ізольовані;
– На вашому ресурсі є мультимедійний контент, він відображається у Новинах Google або застосовує інші анотації, сумісні з файлами.
У sitemap.xml можна задати пріоритет сторінок та частоту оновлень, використовуючи теги <priority> та <changefreq>. Пріоритет сторінки вказується в залежності від її значущості для просування (від 0,0 до 1,0). Частота оновлень встановлюється залежно від типу сторінки та ресурсу – від статичних сторінок до ресурсів новин.
- В robots.txt задаються правила сканування сторінок. Для SEO-просування важливо, щоб дублі, службові сторінки та решта малокорисного контенту не потрапляли в індекс. Але іноді краулери можуть проіндексувати навіть закриті сторінки. Якщо заборонити індексацію якихось даних на сайті потрібно в будь-якому випадку, то можна використовувати метатег robots або зробити їх доступними для відвідувачів після авторизації.
Для заборони індексації у robots.txt застосовується директива Disallow. Наприклад, для заборони доступу будь-яких ботів до ресурсу вказуються такі рядки коду:
User-agent: *
Disallow:
При внесенні директив їхній порядок може бути різним. Після цієї команди відкрити доступ до індексації будь-якого розділу сайту можна за допомогою директиви Allow.
Крім цих способів можна ще видалити контент з майданчика (що є одним з найвірніших способів запобіганню появи даних у Google) або захистити файли паролем (це забезпечить доступ до них тільки певним користувачам).
Складнощі, які можуть виникнути під час роботи пошукових роботів
- Високе навантаження на сервер
Такі ситуації можливі через велике додавання інформації на сайт (наприклад, додавання карток товару в інтернет-магазин) або ж частих відвідувань ресурсу краулерами (що інсценують відвідування користувачів). Це може призвести до збоїв роботи ресурсу або зробити його зовсім недоступним на певний час.
Роботи пошукових систем відвідують сайти за розкладом та згідно з певними лімітами, тому зазвичай не повинні перевантажувати сервер. Але навантаження може зрости (як у ситуації з додаванням карток товару) і тоді можна вручну скоротити частоту обходу сторінок ботами або встановити налаштування так, щоб він повертав HTTP-код 429. Краулери зчитують цю відповідь як знак про проблеми з навантаженням і автоматично знижують частоту звернень до сервера.
Іноді сайт під виглядом роботів можуть атакувати хакери. Щоб знати цілі, за якими боти відвідують ресурс, та контролювати можливі проблеми, потрібно відстежувати логи сервера та динаміку навантаження в панелі хостинг-провайдера. Високі значення можуть говорити про проблеми, пов’язані з частим доступом роботів до ресурсу.
- Повільна чи неповна індексація сайтів
Роботу складніше обійти сайт повністю, якщо має багато сторінок і піддоменів. Якщо перелінкування немає, а структура ресурсу зрозуміла не відразу, індексація може тривати місяці.
Наявність дублів та помилки у верстці також затримують потрапляння сторінок у пошукову видачу. А це, у свою чергу, негативно відображається на просуванні сайту.
- Доступ фейкових ботів до сайту
Іноді хакери намагаються отримати доступ до ресурсів під виглядом роботів. Google. Але можна легко перевірити, сканує ваш майданчик пошуковий робот Google або хтось інший:
- У логах сервера хостинг-провайдера скопіюйте IP-адресу, з якої робився запит на сайт.
- Перевірте цей IP за допомогою сервісу MyIp.
- Після цього перевірте адресу, вказану в рядку IP Reverse DNS (Host). Ця адреса повинна співпадати з вихідною в логах сервера. Якщо він не збігається, то ім’я бота є підробленим.
Підведемо підсумки
У статті ми розглянули пошукові роботи і зрозуміли, що вони сканують і індексують сайти. Googlebot є одним із найвідоміших ботів, він сам шукає нові веб-сторінки і працює з ними. Але можна і вручну прискорити індексацію, повідомивши про появу нових URL-адрес за допомогою певних інструментів, таких як Google Search Console. Ще ми розглянули, як можна керувати індексацією та яких складнощів можна очікувати від роботи з пошуковими роботами. Тепер вам простіше буде впоратися з ними, тому що ви вже знаєте, що і як потрібно робити.




