Интересные статьи: PPC, SEO, Полезные советы, Разработка

Индексация сайта и методы влияния на неё

Что такое индексация сайта?

Индексация сайта – это процесс обхода сайта краулерами и добавления его в базу поисковых систем в особом виде. Поэтому те страницы, которые есть в выдаче и называются проиндексированными. Этот процесс является очень важным для работы и продвижения сайта, поскольку при неправильных указаниях поисковым роботам, в выдачу могут попадать страницы с личными данными, дубли и другие мусорные страницы.

Добавление сайта в индекс поисковика

Для того чтобы поисковая система знала о появлении нового сайта, её нужно уведомить об этом особым образом. Для этого есть несколько способов, которые могут отличаться скоростью или эффективностью.

indeksatsiya-sajta-v-poiske

Добавление в сайта в Яндекс Вебмастер и Google Search Console

Данный способ является самым оптимальным вариантом, поскольку таким образом поисковая система не только узнает о новом сайте, но также и вы получите возможность воочию наблюдать процесс индексации и контролировать его. Именно поэтому начинать следует именно с этого метода.

Go-Ya

Добавление по средствам «Аддурилок»

Также в Яндекс.Вебмастере и GoogleSearchConsole есть так называемые аддурилки (от англ. слов add url). Это специальный сервис, с помощью которого можно дать указания поисковику для быстрого обхода определенных страниц сайта. Обычно обход страниц происходит в течении от 1 до 24 часов. Мы рекомендуем добавлять сайты через аддурилки сразу после того, как вы настроили вебмастера поисковых систем. Для Google вы можете добавить ссылки сюда.

addurlg

Для того чтобы добавить сайт на быстрый обход в Яндексе, нужно настроить Вебмастер и зайти в раздел Индексация и подраздел Переобход страниц.

addurly

Добавление внешней ссылки на ваш сайт

Данный метод заключается в том, чтобы на определенном ресурсе, у которого хорошая индексируемость, вы размещаете ссылку на свой сайт, и краулеры, при обходе сайта-донора, увидят ссылку на непроиндексированный сайт и добавят его в очередь. Лучше всего размещаться на популярных информационных или новостных порталах, поскольку у них, чаще всего, роботы могут бывать на сайте каждые 2-3 часа. Такой способ добавления сайта менее быстрый и менее надежный, но все же также действенный.

Добавление внешней ссылки с социальных сетей

Данный метод стал достаточно актуальным года 2-3 назад, когда поисковик начал в полной мере оценивать страницы социальных сетей как полноценные ресурсы. Необходимо просто добавить ссылку на сайт. Но очень важным нюансом есть то что ссылка должна быть именно ПРЯМАЯ, поскольку ссылка через редирект не даст никакого результата. (Например в VK).

Индексируемость сайта: как узнать

Чтобы понять насколько эффективно проиндексирован сайт, необходимо знать количество страниц на сайте которые должны быть проиндексированы и страницы которые уже в были обойдены роботами.

I= N1(проидексированные страницы)/N2(все необходимые страницы сайта)*100%

Значение переменной N1 можно узнать несколькими способами:

  • вставив в поисковую строку следующий код site:site.ru и долистав до последней страницы результатов поиска посмотреть реальное количество страниц в индексе. Необходимо для каждого поисковика это делать отдельно.

indexindexya

 

  • второй способ подходить только для Google. Вы можете посмотреть количество проиндексированных страниц в SearchConsole в разделе Индекс Google подраздел Индексация, там указывается количество проиндексированных страниц.

ind1

Значение переменной N2 можно либо пересчитать:

  • по количеству адресов в карте сайта.
  • по количеству адресов в выгрузке сайта после удаления мусорных страниц

Например: проиндексированных страниц в Яндексе 321, в Гугл – 330. А всего страниц на сайте 350. Тогда получается это так

Индексируемость в Яндекс: formula1

Индексируемость в Google: formula2

Если процент индексации менее 50% то это является очень плохим показателем и означает что у сайта есть большие проблемы с индексацией и нужен глубокий анализ причин.

Если показатель колеблется от 50% до 80% тогда на сайте проблемы с индексацией незначительные и скорее всего это связано с неправильной настройкой robots.txt и sitemap.xml.

Если показатель  от 80% до 100% тогда индексация сайта нормальная. И никаких кардинальных правок проводить не нужно.

Если данный коэффициент более 100% то вероятнее всего на сайте присутствуют проблемы с неправильной настройкой robots.txt или не полной картой сайта.

Как улучшить индексируемость сайта?

Для того чтобы максимально ускорить индексацию сайта необходимо правильно настроить взаимодействие сайта с поисковыми роботами, и предельно четко им показывать что нужно сканировать, а что нет. Для этого используются различные методы и функционал. Для запрета индексирования мы используем 3 доступных способа, отдельно про каждый поговорим ниже. Для того, чтобы показать роботам что нужно индексировать мы составляем специальные списки адресов, называемые картами сайта, тоже опишем ниже.

Файл robots.txt

С помощью директив в файле, вы можете дать рекомендации поисковым роботам, что нужно индексировать, а что нет. Но страницы закрытые в robots.txt могут попадать в выдачу, поскольку указания имеют совещательный характер при обходе страниц. Также если у Вас появились мусорные страницы в выдаче, удалить их вы их не сможете, а просто сгоните в «сопли» (Supplemental index или results) – дополнительная выдача Гугл с низкокачественными страницами. Для того чтобы страницы пропали из индекса и краулеры их точно не индексировали нужно применять другие методы.

robots

МЕТА-тег “Robots”

Данный метод закрытия страниц от индексирующих роботов уже является не рекомендательным, а обязательным к исполнению. Используя meta robots можно удалять страницы из поисковой выдачи, чего не позволял robots.txt. Также с помощью данного тега можно не только управлять индексированием содержимого, а также и переходами по внутренним и внешним ссылкам.

Список директивы которые применяются:

  • Index – дает разрешение на индексирование страницы
  • Noindex – закрывает доступ роботам к странице
  • Follow – разрешает переходить по всем ссылкам на странице
  • Nofollow – запрещает переходы по гиперлинкам
  • All – разрешает индексировать и переходить по ссылкам
  • None – запрещает обход страницы и переходы по линкам

Тоесть:

<meta name=“robots” content=“index,follow”> = <meta name=“robots” content=“all”>  — разрешается индексация и переходы

<meta name=“robots” content=“noindex,follow”> — нельзя загружать содержимое страницы, но можно переходить по ссылкам

<meta name=“robots” content=“index,nofollow”> — можно загружать контент страницы, но переходы запрещены

<meta name=“robots” content=“noindex,nofollow”> = <meta name=“robots” content=“none”> — запрещается все

robotsmet

Применение http-заголовка X-Robots-Tag

Данный способ управления является самым продвинутым и самым гибким, поскольку дает указания по работе со страницей сразу при загрузке http ответа сервера. Особенностью есть то, что применяется он не только для html-страниц, но и для любых файлов: картинок, видео, документов и т.д. С помощью meta robots можно закрывать лишь html-страницы.

Директивы у X-Robots-Tag такие же как и у метатега robots:

  • index;
  • noindex;
  • follow;
  • nofollow;
  • all;

Пример http ответа сервера страницы с использованием тега X-Robots-Tag:

xrob

Индексирование страниц по карте сайта

Карта сайта  — это файл со списком всех страниц сайта, которые должны быть проиндексированы и добавлены в поисковую выдачу. С помощью данного сайта мы упрощаем поисковому роботу работу. Он не просто будет переходить по внутренним ссылкам, при этом тратя время, краулинговый бюджет и мощности сервера, а посещать именно те страницы, которые указаны в карте сайта.

Также очень важно, что в карте сайта можно указывать приоритет сканирования и дату последнего изменения. Это очень важные параметры при большом сайте или ресурсе с постоянно изменяющимся контентом. Например, если указана дата редактирования (<lastmod>), зачем роботу обходить заново страницы, которые не менялись с последнего раза, лучше выгружать те, на которых менялся контент. Либо если указан приоритет (<priority>), тогда краулер будет обходить в первую очередь страницы с более высоким приоритетом, при прочих равных условиях.

Например у нас есть такой такая карта сайта:

<url>

                <loc> URL1</loc>

                <lastmod>2018-01-02T12:41:56+01:00</lastmod>

                <priority>1.0</priority>

</url>

<url>

                <loc>URL2</loc>

                <lastmod>2018-01-02T12:41:56+01:00</lastmod>

                <priority>0.8</priority>

</url>

<url>

                <loc>URL3</loc>

                <lastmod>2018-01-05T12:41:56+01:00</lastmod>

                <priority>0.8</priority>

</url>

Тогда первым будет индексироваться страница URL3(изменялась позже всех) , далее за ней URL1 (поскольку приоритет 1),. А

Иванченко Сергей

Руководитель группы поискового продвижения