Contenu dupliqué : comment l’éviter et le détecter ?

Emma Labrador
Emma Labrador
Published in
5 min readFeb 16, 2017

En décembre 2016, Matt Cutts de chez Google annonçait que 25 à 30% du web était du contenu dupliqué.

Vous avez donc certainement entendu parler du contenu dupliqué et de son impact négatif sur votre référencement naturel. Lorsque l’on évoque les problèmes de duplication sur un site web, il est clair qu’il n’existe pas qu’un seul type de contenu dupliqué ni qu’une seule manière de les traiter.

Google ne considère pas le contenu dupliqué comme du spam mais pénalisera les sites qui en contiennent en trop grande quantité. En effet, les moteurs de recherche sont dans la nécessité de choisir la meilleure version d’un contenu à indexer.

Il y a donc un risque de perte de trafic sur certaines pages si celles-ci ne sont pas choisies par Google pour une requête donnée. Google ne pourra ainsi pas distribuer efficacement les métriques de liens comme le jus de lien ou l’autorité à la bonne page ou les partager entre les bonnes versions.

Parallèlement, le contenu dupliqué n’offre pas une expérience utilisateur optimisée (facteur également pris en compte par Google pour positionner votre site dans les résultats des moteurs de recherche).

Cet article a pour but de vous présenter les principaux types de contenu dupliqué et de vous offrir des solutions et des outils concrets pour vous en débarrasser et améliorer vos performances SEO.

Les types de contenu dupliqué négatifs pour votre SEO

Tous les types de contenu dupliqué ne sont pas négatifs pour votre référencement naturel. Concentrons nous donc sur ceux qui pourraient vous pénaliser :

Les URLs similaires

Des URLs similaires pointant vers des pages identiques seront considérées comme dupliquées. Un exemple typique est la différenciation entre :

  • www vs. le non-www ;
  • .com vs .com/index.html ;
  • http ou https ;

pointant vers la même page. Google considère ces différentes URLs comme dupliquées même si elles pointent vers le même contenu.

Exemple :
www.monsiteweb.com/blue-item?color=blue
www.monsiteweb.com/blue-item

Les versions imprimables

Les versions imprimables d’un contenu peuvent causer des problèmes de contenu dupliqué lorsque plusieurs versions d’une page sont indexées.

Exemple :
www.monsiteweb.com/blue-item
www.monsiteweb.com/print/blue-item

Les identifiants de session

Ce problème commun arrive lorsque chaque utilisateur arrivant sur un site se voit offrir un identifiant de session différent sauvegardé dans l’URL.

Exemple:
www.monsiteweb.com/blue-item?SESSID=142
www.monsiteweb.com/blue-item

Les informations copiées ou regroupées

Lorsque vous écrivez un article, il est possible que vous intégriez des sources extérieures pour étayer vos propos. Cela pourrait être perçu comme du contenu dupliqué même si vous avez cité vos sources.

Les informations produits dupliquées

Les sites e-commerce rencontrent très souvent ce problème… En effet, il est possible que vos concurrents et vous vous approvisionniez auprès du même fournisseur, et que, par conséquent, vos fiches produits soient les mêmes que celles présentées sur d’autres boutiques. Vous créez donc du contenu dupliqué : à partir de ce constat, la meilleure chose à faire est de prendre le temps de retravailler ces descriptions. C’est un travail qui sera, certes, chronophage, mais qui paiera sur le long terme face à vos concurrents.

Les listes filtrées et les multi-pages

Les options de filtrage générent des URLs différentes. Pour une page de tshirt par exemple, chaque taille et couleur créera une URL différente pour un contenu similaire. De même, si vous ordonnez 30 items par prix dans un ordre alphabétique, vous aurez donc deux pages avec le même contenu mais avec des URLs différentes.

Comment éviter le contenu dupliqué

Le contenu dupliqué peut être bien géré si les bonnes pratiques sont mises en place :

La balise canonique

La balise canonique (ou rel=canonical), est une balise placée dans le header HTML d’une page web. Elle indique aux moteurs de recherche quelle page prendre en compte (la canonique) pour un contenu dupliqué. Elle permet donc de rétablir en partie les métriques de liens à la bonne destination.

Une balise canonique est représentée de cette manière:
<link rel=”canonical” href=”http://exemple.fr/red-coat.html”/>

Veillez à ce qu’une seule canonique soit attribuée à une même page. Par ailleurs, si vous décidez que la version canonique d’un site est www.monsiteweb.com, alors tous les liens internes devront renvoyer vers http://www.monsiteweb.com/siteweb.html et non à http://monsiteweb.com/page.html.

Les redirections 301

Dans la plupart des cas, cette redirection est la meilleure solution pour les problèmes d’URLs. Elle détermine ainsi aux yeux des moteurs de recherche la version originale d’un contenu et lie les contenus dupliqués à cette première. Par ailleurs, cela permet d’éviter de causer des problèmes de concurrence entre plusieurs pages dupliquées. Les redirections 301 permettent ainsi de créer un signal de popularité et de pertinence plus fort en redirigeant les URLs dupliquées vers la bonne page.

NoIndex, NoFollow

Ces balises permettent d’avertir les moteurs de recherche de ne pas suivre et de ne pas indexer un lien. Il n’apparaitra donc pas dans les résultats des moteurs de recherche. Les robots peuvent crawler la page mais ne l’indexeront pas.

Le domaine par défaut

Problème cité plus haut, les différentes manières d’afficher un site (www ou non, etc.) sont considérées comme du contenu dupliqué. La meilleure solution est de définir un domaine par défaut qui redirigera toutes les autres options vers celui choisi. Les moteurs de recherche seront donc informés de la bonne version à afficher dans les pages de résultats.

Contenu regroupé

Si vous citez une source extérieure, soyez sûr de citer le site en question.

3 outils de détection du contenu dupliqué

OnCrawl

Le crawler SEO onsite et analyseur de logs OnCrawl offre entre autre une détection du contenu dupliqué et presque dupliqué. Le contenu dupliqué est regroupé par groupes de pages dupliquées (il est également possible de filtrer ces pages par nombre de pages au sein du groupe ou par degré de similarité), par types de contenu dupliqué et indique les URLs concernées. L’outil offre un essai gratuit de 30 jours.

Siteliner
Siteliner est un autre outil gratuit pour détecter du contenu dupliqué à l’extérieur de son site web.
Cet outil permet de détecter les erreurs de contenu, dont le contenu dupliqué et de mettre en avant les URLs concernées.

Plagariasm Checker

Cet outil gratuit est très utile pour les blogueurs. Il permet de détecter si son contenu a été victime de plagiat. Il suffit de copier un texte pour voir les résultats en quelques secondes. L’outil permet de seulement vérifier 1500 mots à la fois mais affiche un pourcentage de plagiat et la source exacte.

En clair, le contenu dupliqué est un problème à prendre en compte si vous souhaitez miser sur du contenu qualitatif et mieux vous positionner. Les solutions citées plus haut vous aideront ainsi à lutter contre ce phénomène courant.

First published on Xilopix : http://pro.xilopix.com/blog/contenu-duplique-comment-leviter-et-le-detecter/

--

--

Emma Labrador
Emma Labrador

Head of #Marketing & #Communication @OnCrawl. I’m sharing some of my search marketing articles and other projects.