Як скласти файл robots.txt?

#SEO 5 July 2018 Оцінити статтю

Як ви вже знаєте, файл robots.txt – це спеціальний індексний файл, призначений для вказівки пошуковим роботам на те, що можна індексувати на сайті, а що не можна. Але як було написано в попередній нашій статті, для закриття деяких сторінок сайту потрібно застосовувати інші способи. Але про це далі.

Ви, звичайно, можете вказати пошуковий запит «стандартний файл robots.txt» і, знаючи адмінку, на якій написаний сайт, завантажити його з інтернету. Але кожен сайт є унікальним. І те, що підходить одному, не обов’язково підходить іншому. Саме тому необхідно індексний файл створювати індивідуально під сайт. І тоді ви точно будете впевнені, що робот правильно обходитиме сторінки.

З чого почати?

Отже, складання файлу robots.txt ми завжди починаємо з розвантаження сайту. Що це таке? Це спеціальний файл з усіма сторінками сайту та їх параметрами: url, title, description, тип, відповідь сервера, розмір і т.д. Все це оформлено в окремому файлі у вигляді великої таблиці. Деякі послуги надають онлайн-перегляд вивантаження. Програм для вивантаження та первинного аналізу сайту просто безліч. Не акцентуватимуся на них, щоб не робити реклами. Нам підійде будь-яка, яка вивантажує адресу сторінки, її тип і доступність.

Для чого він потрібний?

Насамперед для того, щоб побачити повну кількість сторінок і файлів на сайті. Також за допомогою нього добре видно шляхи розташування тих чи інших файлів і наявність сторінок сортувань, фільтрів і сторінок з динамічними параметрами. Практично всі сучасні програми показують, чи відкрита сторінка для індексування, чи ні.

Потрібні доступи на ftp або хостинг, щоб переглянути структуру папок і каталогів. Теоретично роботс можна скласти й без доступів, знаючи адмінку сайту та зразкову внутрішню структуру сайту. Для того щоб визначити адмінку, якщо раптом ви не знаєте, можна скористатися сервісом https://2ip.ru/cms/.

Ми практикуємо спосіб написання robots.txt за методом «закрий все – відкрий потрібне». Так ми мінімізуємо можливість потрапляння в пошукову видачу сміттєвих сторінок і файлів.

Почнемо написання robots.txt

Перше, що нам потрібно зробити, – це створити на комп’ютері звичайний текстовий документ з ім’ям robots.txt і зберегти його в кодуванні utf-8.

Примітка. Регістр символів у назві має бути у всіх букв однаковий – нижній. Назва має бути не Robots.txt, не ROBOTS.txt, а саме robots.txt і ні як інакше.

1 12
Прописуємо першу команду, яка для конкретної роботи вказує директиви на обхід або на ігнорування. Це команда User-agent. Після неї без пропуску необхідно поставити: (двокрапка), пропуск і ім’я конкретного робота або * (для всіх роботів). Розглянемо наш сайт wedex.com.ua.

У своїй практиці ми не розділяємо директиви під різні пошукові системи. Примітка: розділяти їх потрібно лише в тому випадку, коли вам необхідно для різних пошукових систем індексувати різні файли. Наприклад, для Яндекса вам не потрібно індексувати англійську версію сайту. Або ще часто буває, коли під Яндекс і Google є схожі сайти, і щоб не потрапити під фільтр-афіліат, для Яндекса закривають один сайт, а для Гугла інший. Або Сайт потрапив в одній з пошукових систем під фільтр, а по іншій відмінно лізе, тоді не варто міняти сайт, краще скопіювати його на інший домен і виправити помилки. Так у вас буде 2 сайти, що дають трафік кожен зі своєї пошукової.

І так прописуємо та дивимося, що вийшло.

2

Прописуємо Allow та Disallow

Далі заходимо на FTP. Зробити це можна або за допомогою TotaCommander, або за допомогою інших програм. Ми користуємося програмою WinSCP, тому вона дозволяє вносити правки в файли «на льоту».

Відкриваємо цю програму та заповнюємо наші дані для доступу до ftp сайту.

3
Якщо все зроблено правильно, ви побачите приблизно це:

4
Копіюємо назву папок і закриваємо їх за допомогою директиви Disallow.

5
Виходить приблизно так:

6
Далі ми починаємо працювати з розвантаженням сайту. Нам потрібно перевірити, чи не закрили ми якісь важливі сторінки. Заходимо в Яндекс.Вебмайстер за цим посиланням, заповнюємо всі необхідні дані й натискаємо «Перевірити».

7
Дивимося на результати перевірки – не повинно бути помилок і попереджень.

8
Нижче ми додаємо адреси з вивантаження, які потрібно перевірити, закриті чи відкриті вони до індексації.

Примітка. Додавати можна не більше 100 url за 1 раз. Якщо адрес більше, перевіряйте в декілька заходів.

9
По зеленій галочці зліва від адреси видно, що всі сторінки відкриті для індексації. Це те, що нам потрібно.

11

13
Далі за вимогами пошукових систем для індексації повинні бути відкриті всі java-скрипти, css-файли та картинки. Тому ми перевірятимемо кожен тип файлів так, як перевіряли html сторінки.

Вибираємо адреси всіх файлів js у файлі вивантаження та перевіряємо їх доступність, як показував вище.

Як видно, всі файли ява-скриптів закриті, тому потрібно їх відкрити. Знаходимо всі урли скриптів і шукаємо, як можна згрупувати.

14
Групуємо за папками та розширенням. Додаємо відповідні директиви Allow у файл роботи. Ось що вийшло

15
Перевіряємо їхню доступність після внесення правок.

16
Відмінно! Так ми робимо з усіма файлами: стилів –css та картинок jpg, png, які у вас є на сайті. Також можна дозволити індексацію унікальних pdf, doc, xml та інших файлів у разі потреби.

Дивимося, що в нас зрештою вийшло.

Ще раз перевіряємо все, чи нічого зайвого не закрили, та йдемо далі.

Додаємо директиву Host

Прописуємо директиву Host, після якої ми ставимо двокрапку та пропуск, і додаємо домен нашого сайту. Ця директива необов’язкова, якщо ви не просуваєтесь Яндексом або Рамблером, всі пошукові машини, крім вищевказаних, її ігнорують.

Якщо сайт працює за протоколом http, тоді його не варто писати там, а просто пишіть домен site.ru. Якщо робота ведеться через зашифрований протокол https, тоді необхідно вказувати його https://site.ru.

Примітка. Якщо у вас кириличний домен, тоді робити запис потрібно в punny-code. Просто відкрийте сайт і скопіюйте URL-адресу з адресного рядка. Потім вставте в файл і видаліть зайве.

Дивимося, що в нас вийшло:

18

Додаємо посилання на карту сайту

Ця директива може бути необов’язковою, якщо у вас немає картки сайту. Але все ж таки ми дуже рекомендуємо згенерувати карту сайту хоча б автоматичним сервісом або створити вручну (в іншій статті розпишу, як це зробити).

Додаємо директиву Sitemap, ставимо двокрапку та пропуск і вставляємо посилання на карту вашого сайту. В нас карта сайту лежить у кореневому каталозі та має стандартну назву sitemap.xml.

Тому ось що в нас вийшло зрештою.

19

Додавання файлу robots.txt на сайт

Після того як ви закінчили його складання, вам потрібно додати його до кореневої папки сайту. Це дуже просто. Зробити це можна через програму, якою дивилися папки на ftp.

Просто відкриваєте кореневу папку вашого сайту та перетягуєте туди новий роботс.

20

Додати до Google SearchConsole

Відкрийте сервіс під своїм логіном і знайдіть у списку свій сайт https://www.google.com/webmasters/tools/home?hl=ua&authuser=1.

21
Перейдіть до нього й ліворуч у випадаючому меню розділу «Сканування» виберіть пункт «Інструмент перевірки файлу robots.txt». На сторінці до віконця додайте повний текст файлу.

22
У спливаючому вікні виберіть «Надіслати», а в новому спливаючому натисніть оновити сторінку.

23
Все, ваш файл robots.txt написано та додано на сайт і в пошуковик Google.

Яндекс не вимагає додавання файлу robots.txt до свого Вебмайстеру.

Іванченко Сергій Керівник групи пошукового просування
схожі статті
підписатися:
Як знайти пріоритетні сторінки для дооптимізації?
Як знайти пріоритетні сторінки для дооптимізації?
# SEO
Оператори пошуку в Google та Яндекс
Оператори пошуку в Google та Яндекс
# SEO
Технічний аудит сайту
Технічний аудит сайту
# SEO
Коментарі