Файл Robots.txt: значение, примеры, инструменты проверки

page_watches 315300 page_stars
img-border Robots txt test

Файл Robots.txt служит для предоставления ценных данных поисковым системам, которые сканируют и индексируют сайты. Перед тем как осуществить анализ сайта поисковые роботы выполняют проверку этого файла. Благодаря такой процедуре они могут повысить эффективность сканирования и сэкономить свои ресурсы.  Но все это возможно, только если вы произвели правильную настройку этого файла.

Важное замечание. Точно так же, как команды файла robots.txt, инструкция noindex в мета-теге robots является не более чем рекомендацией для роботов. Именно по этой причине они не могут гарантировать того, что закрытые страницы не попадут в индекс. Если вам наверняка нужно закрыть для индексации часть вашего сайта, вы можете использовать пароль для закрытия каталогов.

 

Содержание

 

 

Основной синтаксис

 

User-Agent: робот, к которому будут применяться следующие правила (к примеру, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (с началом каждой новой строки вы можете включить огромный перечень указаний и инструкций).
Каждая группа User-Agent / Disallow должна быть разделена пустой строкой. Но непустые строки не должны встречаться внутри группы (между User-Agent и последним элементом списка Disallow).

Хэш-метка (#) может использоваться, когда необходимо оставить комментарии в файле robots.txt для текущей строки. Все, что упоминается после метки хэша, будет проигнорировано.

Каталоги и имена файлов чувствительны к регистру: поисковая система принимает «Каталог», «каталог» и «КАТАЛОГ» в качестве разных директив.

Host: используется Яндексом, для указания основного зеркала сайта. Поэтому, если вы выполняете 301 редирект на страницу, чтобы объединить два сайта, нет необходимости повторять процедуру для файла robots.txt (на дублированном сайте). Таким образом, Яндекс определит указанную директиву на сайте, который должен быть склеен.

Crawl-delay: вы можете ограничить скорость сканирования вашего сайта, что очень полезно в случае его высокой посещаемости. Подобные ситуации возникают из-за еще большей нагрузки, которая вызывается различными поисковыми системами, обрабатывающими информацию на сайте.

Формальные фразы: для обеспечения более гибких настроек директив вы можете использовать два символа, упомянутых ниже:
* (звезда) – указывает на любую определенную последовательность знаков,
$ (символ доллара) – обозначает конец текущей строки.

 

Основные примеры использования robots.txt

 

Запрет на индексацию всего сайта

User-agent: *
Disallow: /

Эту инструкцию нужно применять при создании нового сайта или использовании поддоменов для обеспечения доступа к нему. Весьма часто при работе на новом сайте веб-разработчики забывают закрыть часть сайта для индексации, а поэтому поисковые роботы обрабатывают полную его копию. Если вы сделали подобную ошибку, то для вашего основного домена следует сделать 301 редирект на страницу.

 

Следующая конструкция разрешает индексацию всего сайта:

User-agent: *
Disallow:

 

Запрет индексации конкретной папки

User-agent: Googlebot
Disallow: /no-index/

 

Запрет на посещение страницы для указанного краулера

User-agent: Googlebot
Disallow: /no-index/this-page.html

 

Запрет индексации определенных типов файлов

User-agent: *
Disallow: /*.pdf$

 

Разрешение посещения определенной страницы для указанного веб-робота

User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html

 

Ссылка на карту сайта

User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Если вы постоянно наполняете свой сайт уникальным контентом, то лучше:

Это важно делать, так как множество нечестных веб-мастеров парсят контент с других сайтов и используют его для своих собственных проектов.

 

Что лучше: исключение в robots.txt или noindex?

 

Если вы хотите, чтобы некоторые страницы не индексировались, более подходящим вариантом будет атрибут noindex в мета-тегах robots. Чтобы реализовать его, вам нужно добавить следующий мета-тег в разделе вашей страницы:

<meta name=”robots” content=”noindex, follow”>

При использовании этого варианта вы:

В файле robots.txt лучше закрывать такие типы страниц:

 

Инструменты проверки файла robots.txt

 

Когда вы создаете файл robots.txt, часто нужно проверить, содержит ли он какие-либо ошибки. Стандартные инструменты для решения этой задачи такие:

 

Google Webmasters

Войдите в учетную запись с текущим сайтом, подтвержденным на платформе, перейдите в Сканирование, а затем в раздел Инструмент проверки файла robots.txt .

 

img-border
Robots.txt tester in Google Search Consoleimg-close

 

Здесь вы можете:

 

Yandex Webmaster

Войдите в учетную запись с текущим сайтом, подтвержденным на своей платформе, перейдите на вкладку Инструменты, а затем в анализ Robots.txt.

 

img-border
Robobts txt generator for Yandeximg-close

 

Этот инструмент предлагает почти такие же возможности для проверки, как и Google Search Console. Разница заключается в следующих параметрах:

1 Star2 Stars3 Stars4 Stars5 Stars (13 votes, average: 4.92 out of 5)
Loading...

Interesting now

Как провести анализ ссылочного профиля конкурентов с помощью Ahrefs и Linkstrategy?

Один из мифов, который Google успешно распространяет среди веб-мастеров и SEO-специалистов последние годы - это

Значение микроразметки Schema.org для SEO и примеры её внедрения

Что такое микроразметка Schema? И что такое структурированные данные? Можете ли вы дать определение

Что такое посадочная страница и как правильно её создать?

Сегодня многие веб-мастера начинают спрашивать себя, как самостоятельно создать посадочную страницу на Joomla,

Правила создания страницы благодарности

С детства нас учат благодарить наших родителей за то, что они делают для нас. Когда ты говоришь спасибо это

Какой должна быть плотность ключевых слов на странице?

Плотность ключевых слов или тошнота ключевых слов - это частота повторения целевых запросов. Как вычислить

Что такое возраст домена и как он влияет на позиции сайта в поиске?

Сегодня множество SEO менеджеров и веб-мастеров в работе регулярно используют программы и инструменты для

Show more

sent-mail

Ссылка на пароль была отправлена вам на e-mail

Пароль изменен