Файл Robots.txt: значение, примеры, инструменты проверки

Файл Robots.txt: значение, примеры, инструменты проверки
1 Star2 Stars3 Stars4 Stars5 Stars (15 votes, average: 4.73 out of 5)
Loading...
Table of Contents Содержание

Файл Robots.txt служит для предоставления ценных данных поисковым системам, которые сканируют и индексируют сайты. Перед тем как осуществить анализ сайта поисковые роботы выполняют проверку этого файла. Благодаря такой процедуре они могут повысить эффективность сканирования и сэкономить свои ресурсы.  Но все это возможно, только если вы произвели правильную настройку этого файла.

Важное замечание. Точно так же, как команды файла robots.txt, инструкция noindex в мета-теге robots является не более чем рекомендацией для роботов. Именно по этой проверка robots txt файла не может гарантировать того, что закрытые страницы не попадут в индекс. Если вам наверняка нужно закрыть для индексации часть вашего сайта, вы можете использовать пароль для закрытия каталогов.

Основной синтаксис

 

User-Agent: робот, к которому будут применяться следующие правила (к примеру, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (с началом каждой новой строки вы можете включить огромный перечень указаний и инструкций).
Каждая группа User-Agent / Disallow должна быть разделена пустой строкой. Но непустые строки не должны встречаться внутри группы (между User-Agent и последним элементом списка Disallow).

Хэш-метка (#) может использоваться, когда необходимо оставить комментарии в файле robots.txt для текущей строки. Все, что упоминается после метки хэша, будет проигнорировано.

Каталоги и имена файлов чувствительны к регистру: поисковая система принимает «Каталог», «каталог» и «КАТАЛОГ» в качестве разных директив.

Host: используется Яндексом, для указания основного зеркала сайта. Поэтому, если вы выполняете 301 редирект на страницу, чтобы объединить два сайта, нет необходимости повторять процедуру для файла robots.txt (на дублированном сайте). Таким образом, Яндекс определит указанную директиву на сайте, который должен быть склеен.

Crawl-delay: вы можете ограничить скорость сканирования вашего сайта, что очень полезно в случае его высокой посещаемости. Подобные ситуации возникают из-за еще большей нагрузки, которая вызывается различными поисковыми системами, обрабатывающими информацию на сайте.

Формальные фразы: для обеспечения более гибких настроек директив вы можете использовать два символа, упомянутых ниже:
* (звезда) – указывает на любую определенную последовательность знаков,
$ (символ доллара) – обозначает конец текущей строки.

 

Основные примеры использования robots.txt

 

Запрет на индексацию всего сайта

User-agent: *
Disallow: /

Эту инструкцию нужно применять при создании нового сайта или использовании поддоменов для обеспечения доступа к нему. Весьма часто при работе на новом сайте веб-разработчики забывают закрыть часть сайта для индексации, а поэтому поисковые роботы обрабатывают полную его копию. Если вы сделали подобную ошибку, то для вашего основного домена следует сделать 301 редирект на страницу.

 

Следующая конструкция разрешает индексацию всего сайта:

User-agent: *
Disallow:

 

Запрет индексации конкретной папки

User-agent: Googlebot
Disallow: /no-index/

 

Запрет на посещение страницы для указанного краулера

User-agent: Googlebot
Disallow: /no-index/this-page.html

 

Запрет индексации определенных типов файлов

User-agent: *
Disallow: /*.pdf$

 

Разрешение посещения определенной страницы для указанного веб-робота

User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html

 

Ссылка на карту сайта

User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Если вы постоянно наполняете свой сайт уникальным контентом, то лучше:

  • не добавляйте ссылку на свою карту сайта в robots.txt;
  • выберите нестандартное имя для карты сайта sitemap.xml (например, my-new-sitemap.xml, а затем добавьте эту ссылку в поисковые системы с помощью сервисов Google, Yandex);

Это важно делать, так как множество нечестных веб-мастеров парсят контент с других сайтов и используют его для своих собственных проектов.

 

Что лучше: исключение в robots.txt или noindex?

 

Если вы хотите, чтобы некоторые страницы не индексировались, более подходящим вариантом будет атрибут noindex в мета-тегах robots. Чтобы реализовать его, вам нужно добавить следующий мета-тег в разделе вашей страницы:

<meta name=”robots” content=”noindex, follow”>

При использовании этого варианта вы:

  • сможете избежать индексации определенной страницы во время следующего посещения веб-робота (вам не нужно будет удалять страницу вручную с помощью сервиса для вебмастеров);
  • управлять передачей ссылочного веса на вашей странице.

В файле robots.txt лучше закрывать такие типы страниц:

  • страницы управления вашим сайтом;
  • страницы-результаты поиска по сайту;
  • страницы регистрации/авторизации/сброса пароля.

 

Инструменты проверки файла robots.txt

 

Когда вы создаете файл robots.txt, часто нужно проверить, содержит ли он какие-либо ошибки. Стандартные инструменты для решения этой задачи такие:

 

Google Webmasters

Войдите в учетную запись с текущим сайтом, подтвержденным на платформе, перейдите в Сканирование, а затем в раздел Инструмент проверки файла robots.txt .

 

img-border
Robots.txt tester in Google Search Consoleimg-close

 

Здесь вы можете:

  • сразу обнаруживать все свои ошибки и возможные проблемы;
  • проверить ошибки и внести необходимые исправления прямо здесь, чтобы установить новый файл на свой сайт без каких-либо дополнительных проверок;
  • проверьте корректно ли вами были закрыты необходимые страницы от индексирования, и надлежащим ли образом открыты те, которые должны быть проиндексированы.

 

Yandex Webmaster

Войдите в учетную запись с текущим сайтом, подтвержденным на своей платформе, перейдите на вкладку Инструменты, а затем в анализ Robots.txt.

 

img-border
Robobts txt generator for Yandeximg-close

 

Этот инструмент предлагает почти такие же возможности для проверки, как и Google Search Console. Разница заключается в следующих параметрах:

  • здесь не нужно разрешать и подтверждать права на сайт, который предлагает прямое подтверждение вашего файла robots.txt;
  • нет необходимости вставлять отдельно каждую страницу для проверки: полный перечень веб-страниц можно проверить в одном окне;
  • вы можете убедиться, что Яндекс правильно понял ваши команды.

email__icon

Узнайте первым о новых статьях

limit

Бесплатный доступ к
SEO анализу страниц

Создайте бесплатный аккаунт и пользуйтесь инструментом SEO проверки страниц без каких либо ограничений. Также получите доступ к расширениям Chrome и Mozilla, которые помогут в 1 клик проверить любой активный URL-адрес на SEO ошибки.

close

Сбросить пароль

Введите ваш email, чтобы сбросить пароль

Ваш email

Проверьте ваш email

Мы отправили вам новую ссылку для изменения пароля. Проверьте свою электронную почту и следуйте инструкциям. envelope

Ваш пароль сброшен успешно!