Что нужно знать об индексации сайта?

[spoiler]
В этой статье мы ответим на 4 базовых вопроса об индексации сайта.

Что понимается под индексацией сайта?
Это сканирование сайта и внесение его в базу данных поисковых систем, после чего они и появляются в поисковой выдаче.

Как поисковики узнают о сайте и его новых страницах?

Яндекс узнает о ресурсе, автоматически находя ссылку в интернете, и через вебмастер, куда вы сами добавляете сайт и заявляете на него свои права. Google тоже находит сайт автоматически или через ваш запрос индексирования, который направляется через Google Search Console.

Файлы индексации: что это и какими они должны быть?
1. Текстовый файл с параметрами индексирования поисковиков — robot.txt. С помощью него можно сообщить системе, какие страницы вы хотите индексировать, а какие нет.  robot.txt размещается в корневой папке сайта. Он должен весить не более 32 Кб, быть текстовым и содержать директивы, оформленные без регистра в названии и не на кириллице.

Директивы, которые поддерживает Яндекс:
• User agent — указывает робота, для которого действуют правила, прописанные в файле;
• Allow — разрешает индексацию разделов/страниц;
• Disallow — запрещает индексацию страниц/разделов сайта;
• Sitemap — указывает путь к файлу sitemap, размещенному на сайте;
• Clean-param — указывает на параметры, прописанные в URL, которые не должны учитываться при индексации.

У Google правила примерно такие же, только в требованиях к robot.txt указано, что  кодировка должна быть ASCII или UTF-8, а в перечне директив нет  Clean-param.
Проверить, все ли правильно с файлом, можно:
  • в Яндекс.Вебмастере;
  • в Google Search Console.
2. Об актуальной структуре сайта сообщает файл sitemap, чтобы роботы могли точно индексировать страницы. Этот файл особо значим, если:
  • сайт содержит множество страниц, и вы не хотите, чтобы робот пропустил новые или обновленные страницы;
  • много страниц, не связанных друг с другом (в одном файле можно перечислить до 50 тысяч страниц);
  • мало внешних ссылок, на которые ориентируются роботы;
  • при наличии мультимедиа, важную информацию о которых можно указать в файле (например, продолжительность видео, авторскую лицензию и т. д.)
Как узнать скорость обхода страниц роботами?
Чем чаще робот сканирует сайт, тем лучше результаты выдачи.
Скорость обхода можно узнать:
  • через статистику в вебмастере Яндекса — здесь отображаются проиндексированные и непроиндексированные страницы из-за ошибок или перебоев с сервером, а также дату последнего «визита» робота.
  • на сторонних сервисах (только для Яндекса), например, на tools.promosite.ru, где нужно просто зарегистрироваться и указать домен, чтобы рассчитать среднюю скорость индексации.
Для Google сторонних сервисов мы не обнаружили, но в Google Search Console можно видеть статистику проиндексированных страниц и отслеживать динамику.
Следите за нашими новинками и акциями. Подписывайтесь на нас в социальных сетях и блогах: