Découvrez les avantages de l’utilisation d'un fichier Robots.txt et vérifiez l'indexation d'une page particulière

page_watches 315365 page_stars
img-border Robots txt test

Le fichier Robots.txt joue un rôle important pour les recherches sur Net, car avant d’examiner les pages de votre site, les moteurs de recherche effectuent une vérification de ce fichier. Grâce à cette procédure, ils peuvent améliorer l’efficacité de la numérisation. De cette façon, ayant bien configuré robots.txt., vous aidez les systèmes de recherche à effectuer l’indexation des données les plus importantes sur vos sites.

Tout comme les directives du générateur de fichiers robots.txt, l’instruction noindex dans les balises meta robots est une simple recommandation pour le robot. C’est la raison pour laquelle ils ne peuvent pas garantir que les pages fermées ne seront pas indexées et incluses dans l’index. Si vous avez besoin de fermer une partie de votre site pour l’indexation, vous pouvez utiliser un mot de passe pour fermer les répertoires.

 

Table de matières

 

 

Syntaxe principale

 

User-Agent: le robot auquel les règles suivantes seront appliquées (par exemple, “Googlebot”).

Disallow: t les pages que vous voulez fermer pour l’accès (au début de chaque nouvelle ligne, vous pouvez inclure une grande liste de directives).

Chaque groupe User-Agent / Disallow doit être séparée avec une ligne vide. Mais les chaînes non vides ne doivent pas apparaître dans le groupe (entre User-Agent et la dernière directive Disallow).

Hash mark (#) est utilisé pour laisser des commentaires dans le fichier pour la ligne en cours. Tout ce qui est mentionné après la signe dièse sera ignoré. Quand vous travaillez avec un générateur de fichier robot txt, ce commentaire est applicable pour toute la ligne et à la fin de celle-ci après les directives en même temps.

Les catalogues et les noms de fichiers sont sensibles au registre: le système de recherche voit les termes «Catalogue», «Catalogue» et «CATALOGUE» comme différentes directives.

Host: est utilisé par Yandex pour indiquer le site miroir principal. C’est pourquoi si vous effectuez la redirection 301 par page pour coller deux sites, il n’est pas nécessaire de répéter la procédure pour le fichier robots.txt (sur le site dupliqué). Yandex détectera la directive mentionnée sur le site qui doit être bloqué.

Crawl-delay: vous pouvez limiter la vitesse de votre site, ce qui est très utile si celui-ci est fréquemment visité. Cette option est activée pour protéger le générateur de fichiers de ce type des problèmes avec le chargement supplémentaire de votre serveur. Cela est causé parce que divers systèmes de recherche traitent les informations sur les sites.

Regular phrases: pour fournir des paramètres de directives plus flexibles, vous pouvez utiliser deux symboles mentionnés ci-dessous:
* (étoile) – signifie toute séquence de symboles,
$ (signe de dollar) – signifie la fin de la ligne.

 

Les cas principaux de l’utilisation du générateur robots.txt

 

Pour interdire l’indexation complète du site

Agent utilisateur: *
Disallow: /

Cette instruction est appliquée quand vous créez un nouveau site et utilisez des sous-domaines pour y accéder.
Très souvent, en créant un nouveau site, les développeurs Web oublient de fermer une partie de celui-ci pour l’indexation et, par conséquent, les systèmes d’index en traitent une copie. Si une telle erreur a eu lieu, votre master domain est soumis à la redirection 301 par page. Le générateur Robot.txt est très utile!

 

La construction suivante PERMET d’indexer l’ensemble du site:

User-agent: *
Disallow:

 

L’interdiction d’indexation d’un dossier particulier

User-agent: Googlebot
Disallow: /no-index/

 

L’interdiction pour certains robots de recherche de visiter la page

User-agent: Googlebot
Disallow: /no-index/this-page.html

 

L’interdiction d’indexation de certains types de fichiers

User-agent: *
Disallow: /*.pdf$

 

Pour permettre à certains robots Web de visiter une page déterminée

User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html

 

Website lien à sitemap

User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Si vous remplissez en permanence votre site avec un contenu unique il y a quelques particularités à prendre en compte lors de l’utilisation de cette directive:

Le fait est que beaucoup de webmasters malhonnêtes analysent le contenu des autres sites et l’utilisent pour leurs propres projets.

 

Quelle méthode est meilleure: le générateur de robots.txt ou noindex?

 

Si vous ne voulez pas certaines pages d’être indexées, on recommande noindex dans la balise meta robot. Pour l’implémenter, vous devez ajouter la méta-balise suivante dans la section de votre page:

<meta name=”robots” content=”noindex, follow”>

En utilisant cette approche, vous pouvez:

En outre, le générateur de fichiers robots.txt sert mieux pour fermer ces types de pages:

 

Quels outils vous aident à analyser le fichier robots.txt?

 

En créant ces fichiers, vous devez vérifier s’ils ne contiennent pas des erreurs. Pour cela vous pouvez utiliser la vérification par les systèmes de recherche:

 

Google Webmasters

Connectez-vous au compte avec le site confirmé sur sa plate-forme, passez à Crawl, puis à Robot.txt Tester.

 

img-border
Robots.txt tester in Google Search Consoleimg-close

 

Ce test de robot txt vous permet de:

 

Yandex Webmaster

Connectez-vous au compte avec le site confirmé sur sa plate-forme, passez à Outils, puis à l’analyse Robots.txt.

 

img-border
Robobts txt generator for Yandeximg-close

 

Ce testeur propose presque le même analyse que le précédent. La différence n’est que:

1 Star2 Stars3 Stars4 Stars5 Stars (13 votes, average: 4.92 out of 5)
Loading...

Interesting now

Découvrez le PageRank Google et apprenez à vous en servir

Google et tous les autres moteurs de recherche ont pour objectif de présenter à leurs utilisateurs les résultats de recherche les plus pertinents. De nombreux facteurs sont utilisés pour évaluer

Explorez le rôle des meta mots-clés dans l’optimisation SEO

Découvrez des informations utiles sur le rôle actuel des meta mots-clés. Suivez les instructions pour travailler efficacement avec eux.

La clarification du SEO et son importance pour des petites entreprises

Dans le cas où vous n’avez pas d’expérience en SEO et n’avez personne pour vous aider, vous pouvez quand même entreprendre quelques mesures pour améliorer vous-même votre SEO. Ce n’est

Explorez la différence entre les liens Do Follow et No Follow pour le SEO

Que vous soyez expérimenté dans le domaine du SEO ou que vous découvriez cette discipline, la question de l’utilisation des liens « nofollow » se posera tôt ou tard. Si vous êtes débutant,

Les fausses idées reçues sur le sitemap XML

Le sitemap Google XML est un outil SEO puissant. Beaucoup d’experts l’utilisent au quotidien pour améliorer la popularité de leurs créations en ligne et attirer de nouveaux utilisateurs

De bonnes alternatives à Google pour ceux qui en ont marre

Cette statistique va vous choquer : 65%, c’est le pourcentage de la population mondiale qui utilise Google comme moteur de recherche principal. Les internautes entendent fréquemment parler des

Show more

sent-mail

The password link was sent to you by email

The password changed