Как составить файл robots.txt?

Как составить файл robots.txt?
Как составить файл robots.txt?

Файл robots.txt – это специальный индексный файл, предназначенный для указания поисковым роботам на то, что можно индексировать на сайте, а что нельзя. Но как было написано в предыдущей нашей статье, для закрытия некоторых страниц на сайте нужно применять другие способы, поговорим о них далее.

Конечно, можно вбить поисковый запрос «стандартный файл robots.txt» и, зная админку, на которой написан сайт, скачать его из интернета. Но каждый сайт является уникальным, и то, что подходит одному, не обязательно подходит другому. Именно поэтому необходимо индексный файл создавать индивидуально под каждый сайт. Тогда вы точно будете уверены, что робот правильно будет обходить страницы.

Составления файла robots.txt мы всегда начинаем с выгрузки сайта. Что это такое? Это специальный файл со всеми страницами сайта и их параметрами: url, title, description, тип, ответ сервера, размер и т.д. Все это оформлено в отдельном файле в виде большой таблицы, некоторые сервисы предоставляют онлайн просмотр выгрузки. Программ для выгрузки и первичного анализа сайта просто масса, не будем акцентироваться на них, дабы не делать рекламы. Нам подойдет любая, которая выгружает адрес страницы, её тип и доступность.

Для чего нужен файл robots.txt

В первую очередь для того, чтобы увидеть полное количество страниц и файлов на сайте. Также с помощью него хорошо видно пути расположения тех или иных файлов и наличия страниц сортировок, фильтров и страниц с динамическими параметрами. Практически все современные программы показывают, открыта страница для индексирования или нет.

Нужны доступы на ftp или хостинг, чтобы посмотреть структуру папок и каталогов. Чисто теоретически, роботс можно составить и без доступов, зная админку сайта и примерную внутреннюю структура сайта. Для того, чтобы определить админку, можно воспользоваться сервисом WhatCMS.

Мы практикуем способ написания robots.txt по методу «закрой все – открой нужное», таким образом, мы минимизируем возможность попадания в поисковую выдачу мусорных страниц и файлов.

Составление файла robots.txt

Ниже рассмотрим поэтапно, как правильно составлять файл robots.txt.

Написание robots.txt

Первое, что нам нужно сделать, — это создать на компьютере обычный текстовый документ с именем robots.txt и сохранить его в кодировке utf-8. Регистр символов в названии должен быть у всех букв одинаковый – нижний. Название должно быть не Robots.txt, не ROBOTS.txt – а именно robots.txt и никак по-другому.

Как составить файл robots | WEDEX

Прописываем первую команду, которая указывает директивы на обход или на игнорирование. Это команда User-agent. После неё без пробела нужно поставить «:» (двоеточие), пробел и имя конкретного робота либо * (для всех роботов). Рассмотрим наш сайт wedex.com.ua.

В своей практике мы не разделяем директивы под разные поисковики. Разделять их нужно только в том случае, когда вам необходимо для разных поисковиков индексировать различные файлы. Например, если сайт попал в одной из поисковых систем под фильтр, а по другой все отлично, тогда не стоит менять сайт, лучше скопировать его на другой домен и исправить ошибки – и таким образом у вас будет 2 сайта, дающих трафик каждый со своего поисковика.

Прописываем Allow и Disallow

Далее заходим на ftp. Сделать это можно либо с помощью TotalCommander, либо с помощью других программ. Мы пользуемся программиой WinSCP, потому что она позволяет вносить правки в файлы «на лету».

Открываем удобную для использования программу и заполняем данные для доступа к ftp сайта.

Как составить файл robots | WEDEX

Если все сделано правильно, то увидите примерно это:

Как составить файл robots | WEDEX

Копируем название папок и закрываем их с помощью директивы Disallow.

Как составить файл robots | WEDEX

Получается примерно так:

Как составить файл robots | WEDEX

Дальше мы начинаем работать с выгрузкой сайта. Нам нужно проверить, не закрыли ли мы какие-то важные страницы. Заходим в Validator and Testing Tool для проверки, заполняем все необходимые данные и нажимаем «Test».  

Как составить файл robots | WEDEX

Добавляем адреса из выгрузки, которые нужно проверить, закрыты или открыты они к индексации. Проверить можно 1 url.

По зеленой надписи «Allowed» ниже видно, что страница открыта для индексации – это то, что нам нужно.

Как составить файл robots | WEDEX

Далее по требованиям поисковых систем для индексации должны быть открыты все java-скрипты, css-файлы и картинки. Поэтому мы будем проверять каждый тип файлов так же, как проверяли html страницы.

Выбираем адреса всех файлов js в файле выгрузки и проверяем их доступность так, как уже показали выше. Если файлы ява-скриптов закрыты, нужно их открыть. Находим все урлы скриптов и ищем, как можно сгруппировать.

Как составить файл robots | WEDEX

Группируем по папкам и расширениям. Добавляем соответствующие директивы Allow в файл роботса.

Как составить файл robots | WEDEX

Проверяем их доступность после внесения правок.

Так мы поступаем со всеми файлами: стилей – css и картинок jpg, png которые у вас есть на сайте, также можно разрешить индексацию уникальных pdf, doc, xml, и других файлов в случае необходимости. Смотрим, что у нас в конечном итоге получилось. Еще раз проверяем все, ничего ли лишнего не закрыли, и идем дальше.

Добавляем ссылку на карту сайта

Данная директива может быть необязательной, если у вас нет карты сайта. Но все же мы очень рекомендуем сгенерировать карту сайта, хотя бы автоматическим сервисом или создать вручную.

Добавляем директиву Sitemap, ставим двоеточие и пробел и вставляем ссылку на карту вашего сайта. У нас карта сайта лежит в корневом каталоге и имеет стандартное название sitemap.xml. Поэтому вот что у нас получилось в конечном итоге.

Как составить файл robots | WEDEX

Добавление файла robots.txt на сайт

После того, как вы закончили его составление, вам нужно добавить его в коневую папку сайта. Это очень просто. Сделать это можно через программу, которой вы смотрели папки на ftp.

Просто открываете корневую папку вашего сайта и перетаскиваете туда новый роботс.

Добавление файла robots.txt на сайт | WEDEX

Проверка в Google SearchConsole

В GSC можно проверить, может ли Google обработать ваши файлы robots.txt. Для этого нужно открыть сервис под своим логином, нажать «Настройки» – «Открыть отчет».

Проверка в Google SearchConsole | WEDEX

Тут вы увидите его параметры.

Проверка в Google SearchConsole | WEDEX

По отчету robots.txt можно увидеть, какие файлы robots.txt Google нашел для 20 наиболее популярных хостов на вашем сайте, время последнего сканирования, а также любые предупреждения или ошибки.

Подведем итоги

Файл robots.txt — это важный инструмент, который играет ключевую роль во взаимодействии с поисковыми роботами и является неотъемлемой частью эффективного SEO. Он позволяет контролировать процесс индексации сайта и управлять доступом поисковых систем к определенным страницам. Правильная настройка robots.txt может значительно улучшить видимость вашего сайта в поисковой выдаче.

Сергей Иванченко
CEO
коммерческое предложение

    SEO-продвижениеКопирайтингSMM-продвижениеРазработкаКонтекстная рекламаДизайн
    Digital новини в нашому телеграм-каналі
    Інтернет-маркетинг
    простою мовою
    подписаться
    Другие статьи автора
    25/11/2024
    Карта сайта или Sitemap - это файл, с помощью которого есть возможность сообщить поисковым системам, какие страницы и файлы следует считать важными на сайте, а также предоставить ценную информацию о них. Например, когда было последнее обновление страницы, наличие изображений или видео, а также перечень всех альтернативных языковых версий страницы.

    Благодаря концепции SaaS доступ к современным программам, обновлениям application и технической поддержке сайтов стал проще, что позволило ускорить процесс внедрения инновационных решений на рынке Украины и за ее пределами.

    27/09/2024
    Показатель позволяет рекламодателям оценить, насколько их сообщения являются привлекательными для целевой аудитории. Измерение CTR позволяет маркетологам не только анализировать, какие объявления демонстрируют высокую кликабельность, но и понимать поведение своих потенциальных клиентов.

    Последние статьи по #SEO
    05/03/2025
    Merchant Center - это ключевой инструмент для размещения мерчант рекламы в Google, который помогает интегрировать товары с платформой Google Merchant Center и обеспечивать прозрачность информации о покупках.

    05/03/2025
    Рекламный кабинет Гугл Ads является одним из ключевых инструментов для запуска рекламы в интернете. Однако многие пользователи, запускающие рекламу Google, и специалисты по таргетингу сталкиваются с проблемой блокировки учетной записи.

    19/11/2024
    Менеджер по контекстной рекламе является специалистом, который настраивает рекламные кампании, оплата за которые начисляется за клики по рекламным объявлениям, которые были осуществлены потенциальными клиентами. Ключевая задача PPC-специалиста - повышать эффективность рекламы и оптимизировать ее так, чтобы клиент получил как можно больше трафика на сайт за оптимальную цену и мог больше зарабатывать.

    WhatsApp Telegram Viber Почати розмову