Qu’est-ce qu’une URL non canonique dans un sitemap ?
Une “URL non canonique dans mon sitemap” fait référence à une situation où les URLs listées dans le sitemap de votre site ne sont pas les versions canoniques de ces pages. Les URLs canoniques sont les versions préférées d’un ensemble de pages dupliquées ou très similaires sur votre site. L’URL canonique est celle que vous souhaitez que les moteurs de recherche considèrent comme la version principale ou faisant autorité.
Lorsqu’une page non canonique est présente dans votre sitemap, le code HTML de la page peut contenir une balise canonique pointant vers un autre lien que celui listé dans le sitemap. Voici à quoi cela peut ressembler :
Scénario Exemple
Sitemap : https://example.com/page-a
Canonique : https://example.com/page-b
Code source HTML de https://example.com/page-a
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Page A</title>
<!-- Balise canonique pointant vers la page B -->
<link rel="canonical" href="https://example.com/page-b">
</head>
<body>
<h1>Ceci est la page A</h1>
<p>Contenu de la page A...</p>
</body>
</html>
Problèmes observés
1. URL du Sitemap : Le sitemap contient https://example.com/page-a.
2. Balise canonique : Le code HTML de https://example.com/page-a contient une balise canonique pointant vers https://example.com/page-b
Implications
1. Confusion pour les moteurs de recherche. Les moteurs de recherche voient https://example.com/page-a dans le sitemap, mais la balise canonique leur indique que https://example.com/page-b est la version à prendre en compte.
2. Contenu dupliqué. Les moteurs de recherche peuvent considérer https://example.com/page-a comme du contenu dupliqué et pourraient ne pas l’indexer ou le classer comme souhaité.
Approche correcte
Pour corriger cela, vous devez vous assurer que la page figurant dans votre sitemap est bien l’URL canonique.
Sitemap mis à jour
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/page-b</loc>
<lastmod>2023-06-01</lastmod>
<priority>0.8</priority>
</url>
</urlset>
Code source HTML de https://example.com/page-b
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Page B</title>
<!-- Balise canonique pointant vers elle-même -->
<link rel="canonical" href="https://example.com/page-b">
</head>
<body>
<h1>Ceci est la page B</h1>
<p>Contenu de la page B...</p>
</body>
</html>
En veillant à ce que l’URL du sitemap corresponde à la balise canonique, vous fournissez des instructions claires aux moteurs de recherche, ce qui les aide à indexer et classer correctement vos contenus.
Quelles sont les causes de ce problème ?
Plusieurs facteurs peuvent entraîner l’apparition d’URLs non canoniques dans votre sitemap. Voici quelques déclencheurs courants :
1. Multiples versions d’une même page
- HTTP vs. HTTPS : Les deux versions http://example.com et https://example.com peuvent exister.
- WWW vs. non-WWW : Les deux versions http://www.example.com et http://example.com peuvent être accessibles.
- Barres obliques finales : Les deux versions http://example.com/page et http://example.com/page/ peuvent être présentes.
2. Paramètres d’URL
Les pages peuvent être accessibles via différents paramètres d’URL (par exemple http://example.com/page?ref=google vs. http://example.com/page). Même si le contenu est identique, ces liens peuvent exister pour le suivi ou les sessions.
3. Configuration du CMS (système de gestion de contenu)
Certains CMS peuvent générer plusieurs URLs pour un même contenu en fonction des liens ou de la catégorisation. Par exemple, WordPress peut créer différentes URLs pour le même article selon la catégorie ou les archives de tags.
4. Pagination
Le contenu paginé peut générer différentes URLs pour une même page canonique (par exemple, http://example.com/page/2 peut avoir comme canonique http://example.com/page).
5. Contenu dupliqué
La duplication intentionnelle ou accidentelle de contenu à travers différentes URLs peut conduire à plusieurs versions accessibles du même contenu.
6. Balises canoniques incorrectes
Des balises canoniques mal configurées peuvent pointer vers une mauvaise URL, entraînant un écart entre l’URL du sitemap et celle désignée comme canonique.
7. Générateurs de sitemap automatisés
Certains outils de génération automatique de sitemap peuvent inclure des URLs sans vérifier correctement les balises canoniques, provoquant des incohérences.
8. Erreurs manuelles dans les sitemaps
Lorsqu’un sitemap est créé ou modifié manuellement, des erreurs humaines peuvent entraîner l’inclusion d’URLs non canoniques.
Comment le vérifier ?
1. Outil d’audit SEO de Sitechecker
Dans la section Audit de site sous « Indexabilité », vous pouvez trouver différents problèmes liés aux balises « Canonique ». Cette fonctionnalité de notre outil est conçue pour vous aider à détecter et corriger plusieurs problèmes liés aux balises canoniques qui peuvent affecter la performance SEO de votre site. L’outil met en évidence des problèmes tels que des balises canoniques pointant vers un lien non sécurisé (non-HTTPS), l’absence de balise canonique, ou encore des balises configurées en « noindex, nofollow ».

En cliquant sur « Voir le problème » pour chaque catégorie, vous accédez à une liste détaillée des pages concernées par ces problèmes spécifiques.

Optimisez votre SEO avec des balises canoniques précises !
Découvrez l'efficacité des balises canoniques bien configurées grâce à notre vérificateur simple à utiliser.
2. Google Search Console
- Téléversez votre sitemap dans la Google Search Console.
- Dans la section « Index », accédez à « Sitemaps » pour vérifier si certaines URLs posent problème.
- Utilisez le rapport « Couverture » pour identifier les écarts entre les liens soumis et ceux indexés.

3. Inspection manuelle
Télécharger et vérifier le sitemap
- Téléchargez votre fichier sitemap (généralement situé à l’adresse https://example.com/sitemap.xml).
- Vérifiez manuellement un échantillon de liens présents dans le sitemap avec les pages canoniques indiquées dans le code HTML de ces pages.
Afficher le code source de la page
- Ouvrez le code source HTML des liens listés dans votre sitemap.
- Recherchez la balise <link rel=”canonical” href=”URL”>.
- Vérifiez que le lien dans la balise canonique correspond à celui du sitemap.
4. Scripts automatisés
Vous pouvez utiliser des scripts automatisés pour détecter les liens non canoniques. Voici un script Python simple utilisant les bibliothèques requests et BeautifulSoup :
import requests
from bs4 import BeautifulSoup
def get_canonical_url(page_url):
response = requests.get(page_url)
soup = BeautifulSoup(response.content, 'html.parser')
canonical_link = soup.find('link', rel='canonical')
if canonical_link:
return canonical_link['href']
return None
def check_sitemap(sitemap_url):
response = requests.get(sitemap_url)
soup = BeautifulSoup(response.content, 'xml')
urls = [loc.text for loc in soup.find_all('loc')]
for url in urls:
canonical_url = get_canonical_url(url)
if canonical_url and canonical_url != url:
print(f"URL non canonique détectée :\n URL du sitemap : {url}\n URL canonique : {canonical_url}")
sitemap_url = 'https://example.com/sitemap.xml'
check_sitemap(sitemap_url)
En utilisant ces méthodes, vous pouvez identifier et corriger efficacement les liens non canoniques présents dans votre sitemap, afin d’améliorer vos performances SEO et fournir des instructions plus claires aux moteurs de recherche.
Prévenir et corriger le problème
Pour prévenir et corriger le problème des pages non canoniques dans votre sitemap, il existe plusieurs bonnes pratiques à suivre.
Tout d’abord, assurez-vous que chaque page de votre site contient une balise canonique. Cela implique d’ajouter la balise <link rel=”canonical” href=”URL”> dans le code HTML de chaque page, pointant vers la version canonique de cette page.
Ensuite, maintenez une structure d’URL cohérente sur l’ensemble de votre site. Cela signifie standardiser l’utilisation de HTTP ou HTTPS, décider si vous souhaitez inclure « www » dans vos URLs, et être cohérent dans l’utilisation des barres obliques finales.
Une bonne configuration de votre système de gestion de contenu (CMS) est également essentielle. Assurez-vous que votre CMS génère des pages cohérentes et gère correctement le contenu dupliqué.
L’utilisation de redirections 301 est une autre stratégie efficace. Mettez en place ces redirections pour guider les utilisateurs et les moteurs de recherche depuis les pages non canoniques vers leurs équivalents canoniques. Cela permet de consolider l’autorité des liens et d’éviter les problèmes de contenu dupliqué.
Vérifiez également comment votre sitemap est généré. Utilisez des outils fiables qui respectent les balises canoniques et les paramètres de configuration. Contrôlez régulièrement l’exactitude de votre sitemap et mettez-le à jour si nécessaire.
Enfin, une surveillance régulière et un audit de votre site sont indispensables. Utilisez Sitechecker pour analyser fréquemment votre site, repérer les URLs non canoniques et corriger les problèmes dès qu’ils apparaissent.
En suivant ces pratiques, vous vous assurez que votre sitemap reflète correctement les pages canoniques de votre site, améliorant ainsi vos performances SEO et réduisant la confusion pour les moteurs de recherche.
Conclusion
Un « lien non canonique dans mon sitemap » fait référence à des URLs présentes dans votre sitemap qui ne sont pas les versions canoniques. Les URLs canoniques sont les versions préférées des pages que vous souhaitez voir indexées par les moteurs de recherche. Si un lien non canonique figure dans votre sitemap, le code HTML de la page peut pointer vers une autre page canonique, ce qui entraîne une confusion chez les moteurs de recherche et peut poser des problèmes de contenu dupliqué. Pour résoudre ce problème, veillez à n’inclure dans votre sitemap que des pages canoniques, à standardiser la structure des URLs, à configurer correctement votre CMS, à utiliser des redirections 301 et à auditer régulièrement votre site à l’aide d’outils SEO pour garantir son exactitude et améliorer ses performances.