Découvrez les avantages de l’utilisation d'un fichier Robots.txt et vérifiez l'indexation d'une page particulière

Découvrez les avantages de l’utilisation d'un fichier Robots.txt et vérifiez l'indexation d'une page particulière
1 Star2 Stars3 Stars4 Stars5 Stars (43 votes, average: 4.65 out of 5)

5

Loading...
Table of Contents Table des matières

Le fichier Robots.txt joue un rôle important pour les recherches sur Net, car avant d’examiner les pages de votre site, les moteurs de recherche effectuent une vérification de ce fichier. Grâce à cette procédure, ils peuvent améliorer l’efficacité de la numérisation. De cette façon, ayant bien configuré robots.txt., vous aidez les systèmes de recherche à effectuer l’indexation des données les plus importantes sur vos sites.

Tout comme les directives du générateur de fichiers robots.txt, l’instruction noindex dans les balises meta robots est une simple recommandation pour le robot. C’est la raison pour laquelle ils ne peuvent pas garantir que les pages fermées ne seront pas indexées et incluses dans l’index. Si vous avez besoin de fermer une partie de votre site pour l’indexation, vous pouvez utiliser un mot de passe pour fermer les répertoires.

Syntaxe principale

 

User-Agent: le robot auquel les règles suivantes seront appliquées (par exemple, “Googlebot”).

Disallow: t les pages que vous voulez fermer pour l’accès (au début de chaque nouvelle ligne, vous pouvez inclure une grande liste de directives).

Chaque groupe User-Agent / Disallow doit être séparée avec une ligne vide. Mais les chaînes non vides ne doivent pas apparaître dans le groupe (entre User-Agent et la dernière directive Disallow).

Hash mark (#) est utilisé pour laisser des commentaires dans le fichier pour la ligne en cours. Tout ce qui est mentionné après la signe dièse sera ignoré. Quand vous travaillez avec un générateur de fichier robot txt, ce commentaire est applicable pour toute la ligne et à la fin de celle-ci après les directives en même temps.

Les catalogues et les noms de fichiers sont sensibles au registre: le système de recherche voit les termes «Catalogue», «Catalogue» et «CATALOGUE» comme différentes directives.

Host: est utilisé par Yandex pour indiquer le site miroir principal. C’est pourquoi si vous effectuez la redirection 301 par page pour coller deux sites, il n’est pas nécessaire de répéter la procédure pour le fichier robots.txt (sur le site dupliqué). Yandex détectera la directive mentionnée sur le site qui doit être bloqué.

Crawl-delay: vous pouvez limiter la vitesse de votre site, ce qui est très utile si celui-ci est fréquemment visité. Cette option est activée pour protéger le générateur de fichiers de ce type des problèmes avec le chargement supplémentaire de votre serveur. Cela est causé parce que divers systèmes de recherche traitent les informations sur les sites.

Regular phrases: pour fournir des paramètres de directives plus flexibles, vous pouvez utiliser deux symboles mentionnés ci-dessous:
* (étoile) – signifie toute séquence de symboles,
$ (signe de dollar) – signifie la fin de la ligne.

 

Les cas principaux de l’utilisation du générateur robots.txt

 

Pour interdire l’indexation complète du site

Agent utilisateur: *
Disallow: /

Cette instruction est appliquée quand vous créez un nouveau site et utilisez des sous-domaines pour y accéder.
Très souvent, en créant un nouveau site, les développeurs Web oublient de fermer une partie de celui-ci pour l’indexation et, par conséquent, les systèmes d’index en traitent une copie. Si une telle erreur a eu lieu, votre master domain est soumis à la redirection 301 par page. N’oubliez pas de test redirections de page de temps en temps. Le générateur Robot.txt est très utile!

 

La construction suivante PERMET d’indexer l’ensemble du site:

User-agent: *
Disallow:

 

L’interdiction d’indexation d’un dossier particulier

User-agent: Googlebot
Disallow: /no-index/

 

L’interdiction pour certains robots de recherche de visiter la page

User-agent: Googlebot
Disallow: /no-index/this-page.html

 

L’interdiction d’indexation de certains types de fichiers

User-agent: *
Disallow: /*.pdf$

 

Pour permettre à certains robots Web de visiter une page déterminée

User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html

 

Website lien à sitemap

User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Si vous remplissez en permanence votre site avec un contenu unique il y a quelques particularités à prendre en compte lors de l’utilisation de cette directive:

  • n’ajoutez pas de lien dans votre sitemap dans le générateur de fichier robots.txt
  • choisissez un nom non-standartisé pour le plan du site de sitemap.xml (par exemple, my-new-sitemap.xml, puis ajoutez ce lien aux systèmes de recherche à l’aide des webmasters).

Le fait est que beaucoup de webmasters malhonnêtes analysent le contenu des autres sites et l’utilisent pour leurs propres projets.

Vérifiez le statut d'indexation des pages de votre site Web

Détecter toutes les URL noindexed et savoir quelles pages du site sont autorisées à être explorées par les robots des moteurs de recherche

Quelle méthode est meilleure: le générateur de robots.txt ou noindex?

 

Si vous ne voulez pas certaines pages d’être indexées, on recommande noindex dans la balise meta robot. Pour l’implémenter, vous devez ajouter la méta-balise suivante dans la section de votre page:

<meta name=”robots” content=”noindex, follow”>

En utilisant cette approche, vous pouvez:

  • éviter l’indexation de certaines pages lors de la prochaine visite du robot (il ne sera pas nécessaire de supprimer la page manuellement en utilisant les webmasters);
  • gérer pour transmettre le jus de référencement de votre page.

En outre, le générateur de fichiers robots.txt sert mieux pour fermer ces types de pages:

  • les pages administratives de votre site;
  • les données de recherhces sur le site;
  • pages d’enregistrement / autorisation / réinitialisation du mot de passe.

 

Quels outils vous aident à analyser le fichier robots.txt?

 

En créant ces fichiers, vous devez vérifier s’ils ne contiennent pas des erreurs. Pour cela vous pouvez utiliser la vérification par les systèmes de recherche:

 

Google Webmasters

Connectez-vous au compte avec le site confirmé sur sa plate-forme, passez à Crawl, puis à Robot.txt Tester.

 

img-border
Robots.txt tester in Google Search Consoleimg-close

 

Ce test de robot txt vous permet de:

  • détecter toutes vos erreurs et tous les problèmes existants;
  • vérifier les erreurs et faire les corrections nécessaires pour installer ensuite le nouveau fichier sur votre site sans aucune vérification supplémentaire;
  • examiner si vous avez bien fermé les pages que vous ne voulez pas d’être indexées et si celles qui doivent être soumises à l’indexation sont ouvertes.

 

Yandex Webmaster

Connectez-vous au compte avec le site confirmé sur sa plate-forme, passez à Outils, puis à l’analyse Robots.txt.

 

img-border
Robobts txt generator for Yandeximg-close

 

Ce testeur propose presque le même analyse que le précédent. La différence n’est que:

  • ici vous n’avez pas besoin d’autoriser et de prouver les droits pour un site, il y a une vérification immédiate de votre fichier;
  • il n’est pas nécessaire d’insérer par page: il est possible de vérifier la liste complète des pages en une seule session
  • vous pouvez vous assurer que Yandex a bien identifié vos instructions.

  •  
  •  
  •  
email__icon

Vérifiez votre site web pour les erreurs

Must be a valid URL with http:// or https://
No limits! Upgrade your account to crawl this domain

Reset Password

Enter your e-mail to reset your password

Your email

Check Your Email

We have sent you a new link to change your password. Check your email and follow instructions envelope

Your password has been reset successfully!

close
conversation

Contactez nous

Consultez nos experts en intelligence commerciale et découvrez comment vous pouvez tirer parti de Sitechecker.

ERROR: The Name field is empty.

ERROR: The Last Name field is empty.

ERROR: The Work Email field is empty.

ERROR: The Message field is empty.

Thank you for registration!

We are redirecting you to PayPal

Check Your Website SEO Performance

analytics

Launch website audit to find issues and increase website SEO score

Must be a valid URL with http:// or https://
No limits! Upgrade your account to crawl this domain