Contenu dupliqué : comment l’éviter et le détecter ?
En décembre 2016, Matt Cutts de chez Google annonçait que 25 à 30% du web était du contenu dupliqué.
Vous avez donc certainement entendu parler du contenu dupliqué et de son impact négatif sur votre référencement naturel. Lorsque l’on évoque les problèmes de duplication sur un site web, il est clair qu’il n’existe pas qu’un seul type de contenu dupliqué ni qu’une seule manière de les traiter.
Google ne considère pas le contenu dupliqué comme du spam mais pénalisera les sites qui en contiennent en trop grande quantité. En effet, les moteurs de recherche sont dans la nécessité de choisir la meilleure version d’un contenu à indexer.
Il y a donc un risque de perte de trafic sur certaines pages si celles-ci ne sont pas choisies par Google pour une requête donnée. Google ne pourra ainsi pas distribuer efficacement les métriques de liens comme le jus de lien ou l’autorité à la bonne page ou les partager entre les bonnes versions.
Parallèlement, le contenu dupliqué n’offre pas une expérience utilisateur optimisée (facteur également pris en compte par Google pour positionner votre site dans les résultats des moteurs de recherche).
Cet article a pour but de vous présenter les principaux types de contenu dupliqué et de vous offrir des solutions et des outils concrets pour vous en débarrasser et améliorer vos performances SEO.
Les types de contenu dupliqué négatifs pour votre SEO
Tous les types de contenu dupliqué ne sont pas négatifs pour votre référencement naturel. Concentrons nous donc sur ceux qui pourraient vous pénaliser :
Les URLs similaires
Des URLs similaires pointant vers des pages identiques seront considérées comme dupliquées. Un exemple typique est la différenciation entre :
- www vs. le non-www ;
- .com vs .com/index.html ;
- http ou https ;
pointant vers la même page. Google considère ces différentes URLs comme dupliquées même si elles pointent vers le même contenu.
Exemple :
www.monsiteweb.com/blue-item?color=blue
www.monsiteweb.com/blue-item
Les versions imprimables
Les versions imprimables d’un contenu peuvent causer des problèmes de contenu dupliqué lorsque plusieurs versions d’une page sont indexées.
Exemple :
www.monsiteweb.com/blue-item
www.monsiteweb.com/print/blue-item
Les identifiants de session
Ce problème commun arrive lorsque chaque utilisateur arrivant sur un site se voit offrir un identifiant de session différent sauvegardé dans l’URL.
Exemple:
www.monsiteweb.com/blue-item?SESSID=142
www.monsiteweb.com/blue-item
Les informations copiées ou regroupées
Lorsque vous écrivez un article, il est possible que vous intégriez des sources extérieures pour étayer vos propos. Cela pourrait être perçu comme du contenu dupliqué même si vous avez cité vos sources.
Les informations produits dupliquées
Les sites e-commerce rencontrent très souvent ce problème… En effet, il est possible que vos concurrents et vous vous approvisionniez auprès du même fournisseur, et que, par conséquent, vos fiches produits soient les mêmes que celles présentées sur d’autres boutiques. Vous créez donc du contenu dupliqué : à partir de ce constat, la meilleure chose à faire est de prendre le temps de retravailler ces descriptions. C’est un travail qui sera, certes, chronophage, mais qui paiera sur le long terme face à vos concurrents.
Les listes filtrées et les multi-pages
Les options de filtrage générent des URLs différentes. Pour une page de tshirt par exemple, chaque taille et couleur créera une URL différente pour un contenu similaire. De même, si vous ordonnez 30 items par prix dans un ordre alphabétique, vous aurez donc deux pages avec le même contenu mais avec des URLs différentes.
Comment éviter le contenu dupliqué
Le contenu dupliqué peut être bien géré si les bonnes pratiques sont mises en place :
La balise canonique
La balise canonique (ou rel=canonical), est une balise placée dans le header HTML d’une page web. Elle indique aux moteurs de recherche quelle page prendre en compte (la canonique) pour un contenu dupliqué. Elle permet donc de rétablir en partie les métriques de liens à la bonne destination.
Une balise canonique est représentée de cette manière:
<link rel=”canonical” href=”http://exemple.fr/red-coat.html”/>
Veillez à ce qu’une seule canonique soit attribuée à une même page. Par ailleurs, si vous décidez que la version canonique d’un site est www.monsiteweb.com, alors tous les liens internes devront renvoyer vers http://www.monsiteweb.com/siteweb.html et non à http://monsiteweb.com/page.html.
Les redirections 301
Dans la plupart des cas, cette redirection est la meilleure solution pour les problèmes d’URLs. Elle détermine ainsi aux yeux des moteurs de recherche la version originale d’un contenu et lie les contenus dupliqués à cette première. Par ailleurs, cela permet d’éviter de causer des problèmes de concurrence entre plusieurs pages dupliquées. Les redirections 301 permettent ainsi de créer un signal de popularité et de pertinence plus fort en redirigeant les URLs dupliquées vers la bonne page.
NoIndex, NoFollow
Ces balises permettent d’avertir les moteurs de recherche de ne pas suivre et de ne pas indexer un lien. Il n’apparaitra donc pas dans les résultats des moteurs de recherche. Les robots peuvent crawler la page mais ne l’indexeront pas.
Le domaine par défaut
Problème cité plus haut, les différentes manières d’afficher un site (www ou non, etc.) sont considérées comme du contenu dupliqué. La meilleure solution est de définir un domaine par défaut qui redirigera toutes les autres options vers celui choisi. Les moteurs de recherche seront donc informés de la bonne version à afficher dans les pages de résultats.
Contenu regroupé
Si vous citez une source extérieure, soyez sûr de citer le site en question.
3 outils de détection du contenu dupliqué
Le crawler SEO onsite et analyseur de logs OnCrawl offre entre autre une détection du contenu dupliqué et presque dupliqué. Le contenu dupliqué est regroupé par groupes de pages dupliquées (il est également possible de filtrer ces pages par nombre de pages au sein du groupe ou par degré de similarité), par types de contenu dupliqué et indique les URLs concernées. L’outil offre un essai gratuit de 30 jours.
Siteliner
Siteliner est un autre outil gratuit pour détecter du contenu dupliqué à l’extérieur de son site web.
Cet outil permet de détecter les erreurs de contenu, dont le contenu dupliqué et de mettre en avant les URLs concernées.
Cet outil gratuit est très utile pour les blogueurs. Il permet de détecter si son contenu a été victime de plagiat. Il suffit de copier un texte pour voir les résultats en quelques secondes. L’outil permet de seulement vérifier 1500 mots à la fois mais affiche un pourcentage de plagiat et la source exacte.
En clair, le contenu dupliqué est un problème à prendre en compte si vous souhaitez miser sur du contenu qualitatif et mieux vous positionner. Les solutions citées plus haut vous aideront ainsi à lutter contre ce phénomène courant.
First published on Xilopix : http://pro.xilopix.com/blog/contenu-duplique-comment-leviter-et-le-detecter/