Интересные статьи: PPC, SEO, Полезные советы, Разработка

Как составить файл robots.txt

Как вы уже знаете, файл robots.txt это специальный индексный файл предназначенный для указания поисковым роботам на то, что можно индексировать на сайте, а что нельзя. Но как было написано в другой статье, для закрытия некоторых страниц сайте нужно применять другие способы, но об этом далее.

Вы конечно можете вбить поисковый запрос «стандартный файл robots.txt» и зная админку на которой написан сайт, скачать его из интернета. Но каждый сайт является уникальным, и то что подходит одному не обязательно подходит другому. Именно поэтому необходимо индексный файл создавать индивидуально под сайт. И тогда вы точно будете уверены что робот правильно будет обходить страницы

С чего начать

Итак, составления файла robots.txt мы всегда начинаем с выгрузки сайта. Что это такое? Это специальный файл со всеми страницами сайта и их параметрами: url, title,description, тип, ответ сервера размер и т.д. Все это оформлено в отдельном файле в виде большой таблицы, некоторые сервисы предоставляют онлайн просмотр выгрузки. Программ для выгрузки и первичного анализа сайта просто масса, не буду акцентироваться на них, дабы не делать рекламы. Нам подойдет любая, которая выгружает адрес страницы, её тип и доступность.

Для чего он нужен

В первую очередь для того, чтобы увидеть полное количество страниц и файлов на сайте. Также с помощью него хорошо видно пути расположения тех или иных файлов и наличия страниц сортировок, фильтров и страниц с динамическими параметрами. Практически все современные программы показываю открыта ли страница для индексирования или нет.

Нужны доступы на ftp или хостинг, чтобы посмотреть структуру папок и каталогов. Чисто теоретически, роботс можно составить и без доступов, знаю админку сайта и примерную внутреннюю структура сайта. Для того чтобы определить админку, если вдруг вы не знаете можно воспользоваться  сервисом https://2ip.ru/cms/ .

Мы практикуем способ написания robots.txt по методу «закрой все – открой нужное», таким образом, мы минимизируем возможность попадания в поисковую выдачу мусорных страниц и файлов.

Начнем написание robots.txt

Первое, что нам нужно сделать — это создать на компьютере обычный текстовый документ с именем robots.txt и сохранить его в кодировке utf-8.

Примечание. Регистр символов в названии должен быть у всех букв одинаковый – нижний. Название должно быть не Robots.txt, не ROBOTS.txt – а именно robots.txt и ни как по другому.

1 12

Прописываем первую команду, которая для конкретного работа, указывает директивы на обход или на игнорирование. Это команда User-agent. После неё без пробела нужно поставить : (двоеточие), пробел и имя конкретного робота либо *(для всех роботов). Рассмотрим наш сайт wedex.com.ua

В своей практике мы не разделяем директивы под разные поисковики.

Примечание: Разделять их нужно только в том случае, когда вам необходимо для разных поисковиков индексировать различные файлы. Например, для Яндекса вам ненужно индексировать английскую версию сайта. Или еще часто бывает, когда под Яндекс и Google есть похожие сайты, и чтобы не попасть под фильтр-аффилиат для Яндекса закрывают один сайт, а для Гугла другой. Либо Сайт попал в одной из поисковых систем под фильтр, а по другой отлично лезет, тогда не стоит менять сайт, лучше скопировать его на другой домен и исправить ошибки – и таким образом у вас будет 2 сайта дающие трафик каждый со своей поисковой.

И так прописываем и смотрим что получилось

2

Прописываем Allow и Disallow

Далее заходим на ftp. Сделать это можно либо с помощью TotaCommander, либо с помощью других программ. Мы пользуемся программиой WinSCP, потому то она позволяет вносить правки в файлы «на лету».

Открываем данную программу и заполняем наши данные для доступа к ftp сайта.

3

Если все сделано правильно, то увидите примерно это:

4

Копируем название папок и закрываем их с помощью директивы Disallow.

5

Получается примерно так:

6

Дальше мы начинаем работать с выгрузкой сайта. Нам нужно проверить, не закрыли ли мы, какие-то важные страницы. Заходим в Яндекс.Вебмастер по этой ссылке и заполняем все необходимые данные и нажимаем «Проверить».

7

Смотрим на результаты проверки – не должно быть ошибок и предупреждений.

8

Ниже мы добавляем адреса из выгрузки, которые нужно проверить, закрыты или открыты ли они к индексации.

Примечание. Добавлять можно не более 100 url за 1 раз, если адресов больше, проверяйте в несколько заходов.

9

По зеленой галочке слева от адреса видно, что все страницы открыты для индексации – это то что нам нужно.

11

13

Далее по требованиям поисковых систем для индексации должны быть открыты все java-скрипты, css-файлы и картинки. Поэтому мы будем проверять каждый тип файлов также как проверяли html страницы.

Выбираем адреса всех файлов js в файле выгрузке и проверяем их доступность так как уже показывал выше.

Как видно все файлы ява-скриптов закрыты, поэтому нужно их открыть. Находим все урлы скриптов и ищем как можно сгруппировать.

14

Группируем по папкам и расширениям. Добавляем соответствующие директивы Allow в файл роботса. Вот что получилось

15

Проверяем их доступность после внесения правок.

16

Отлично, так мы поступаем со всеми файлами: стилей –css и картинок jpg, png которые у вас есть на сайте, также можно разрешить индексацию уникальных pdf, doc, xml, и других файлов в случае необходимости.

Смотрим, что у нас в конечном итоге получилось.

Еще раз проверяем все, ничего ли лишнего не закрыли и идем дальше.

Добавляем директиву Host

Прописываем директиву Host, после которой мы ставим двоеточие и пробел и добавляем домен нашего сайта. Данная директива не обязательна, если вы не продвигаетесь по Яндексу или Рамблеру, все поисковые машины, кроме вышеуказанных, её игнорируют.

Примечание: Если сайт работает по протоколу http, тогда его не стоить писать там, а просто пишите домен site.ru. Если работа ведется через зашифрованный протокол https, тогда необходимо указывать его явно https://site.ru

Примечание. Если у вас кириллический домен, тогда делать запись нужно в punny-code. Просто откройте сайт и скопируйте url с адресной строки, потом вставьте в файл и удалите лишнее.

Смотрим что у нас получилось:

18

Добавляем ссылку на карту сайта

Данная директива может быть необязательной, если у вас нет карты сайта. Но все же мы очень рекомендуем сгенерировать карту сайта, хотя бы автоматическим сервисом или создать вручную. (В другой статье распишу как это сделать)

Добавляем директиву Sitemap, ставим двоеточие и пробел и вставляем ссылку на карту вашего сайта. У нас карта сайта лежит в корневом каталоге и имеет стандартное название sitemap.xml

Поэтому вот что у нас получилось в конечном итоге.

19

Добавление файла robots.txt на сайт

После того, как вы закончили его составление, вам нужно добавить его в коневую папку сайта. Это очень просто. Сделать это можно через программу которой вы смотрели папки на ftp.

Просто открываете корневую папку вашего сайта и перетаскиваете туда новый роботс.

20

Добавление в Google SearchConsole.

Откройте сервис под своим логином и найдите в списке свой сайт https://www.google.com/webmasters/tools/home?hl=ru&authuser=1.

21

Перейдите в него и слева в выпадающем меню раздела «Сканирование» выберете пункт «Инструмент проверки файла robots.txt». На странице в окошко добавьте полный текст файла.

22

Во всплывающем окне выбирайте «Отправить» и в новом всплывающем нажмите обновить страницу.

23

Все ваш файл robots.txt написан и добавлен на сайт и в поисковик Google.

Яндекс не требует добавления файла robots.txt в свой Вебмастер.