Comment gérer le contenu dupliqué sur son site ?

Publié le 11/08/2015
Mis à jour le 21/04/2017

Rédaction web SEO

Le duplicate content nuit à la qualité de votre site. Si vous proposez du contenu dupliqué sur votre site, vous serez pénalisé par les moteurs de recherche mais également par vos visiteurs, qui privilégient les contenus uniques, originaux et pertinents. Les moteurs de recherche cherchent constamment à proposer aux internautes des contenus de qualité dans leurs résultats, on comprend donc pourquoi ils pénalisent les pages-doublon.

Qu’est-ce que le contenu dupliqué ?

On parle de « duplicate content » (duplication de contenu) dès qu’un contenu se retrouve, à l’identique ou presque, plus d’une fois sur le web. Il s’agit de la reproduction de tout ou partie d’une page web. Cette technique est considérée par Google comme un moyen frauduleux d’améliorer son positionnement dans les moteurs de recherche. Elle est donc sanctionnée en conséquence.

La duplication de contenu peut aussi bien être intra-site (entre les pages d’un même site) qu’inter-site (entre les pages de plusieurs sites). Elle peut également se manifester sur les sites multilingues, qui doivent faire face à de nombreux écueils de duplication de contenu, notamment lorsqu’ils proposent des versions différentes pour des pays parlant la même langue. Il existe des solutions qui permettent aux sites multilingues d’éviter une pénalité de la part de Google : vous pouvez consulter cet article pour optimiser le référencement de votre site multilingue.

Lorsque la duplication se situe au niveau de la page, elle concerne au moins un des éléments suivants :

  • L’URL: pour Google, chaque URL d’un site doit renvoyer vers une page avec un contenu unique. Hors, il est fréquent de trouver sur un site différentes URLs qui renvoient vers la même page, c’est souvent le cas de la page d’accueil par exemple. On trouve souvent des URLs dites « alternatives » à celle de la page d’accueil, renvoyant le même contenu (accueil.html, index.php…)
  • La balise <title>: cette balise revêt une importance capitale : elle sert à convaincre les internautes de visiter votre site et permet aux moteurs de comprendre la thématique abordée dans la page. Les balises <title> d’un site doivent être particulièrement optimisées et contenir les mots-clés recherchés par les internautes. Le contenu de chaque balise doit être unique ! Lorsque deux balises <title> sont identiques, on parle de duplicate content.
  • La balise <meta-description>: cette balise n’a pas d’influence directe sur le positionnement du site, mais elle agit sur le taux de clics de votre site dans les résultats de recherche. Une <meta-description> bien rédigée doit être unique et contenir un ou plusieurs mots-clés, pour résumer le contenu de votre page en une ou deux phrases. Deux <meta-description> identiques sont également considérées comme du contenu dupliqué.
  • Le contenu sémantique de la page: deux textes identiques, ou presque, sont considérés comme de la duplication de contenu. En effet, il ne suffit pas de modifier quelques mots ou de changer l’ordre des phrases pour que les textes soient perçus différemment par Google.

Pourquoi faut-il éviter de dupliquer des contenus sur son site ?

Lutter contre le duplicate content sur votre site est indispensable pour les internautes, pour votre notoriété et pour votre référencement !

Il faut lutter contre la duplication de contenus pour garantir du contenu de qualité aux internautes. C’est en effet très frustrant pour un internaute de tomber sur plusieurs sites proposant le même contenu… Il aura alors l’impression de perdre son temps et cela l’incitera à quitter votre site au plus vite. Dans le pire des cas, il pourra même qualifier votre site de « peu fiable » et votre notoriété en pâtira à coup sûr.

Le duplicate content peut donc être la source de mauvaises expériences utilisateurs et il peut nuire à votre image. Mais pas seulement ! La lutte contre la duplication de contenus se justifie aussi au niveau du référencement de votre site. Cette technique n’est pas du tout appréciée par les moteurs de recherche, qui pénalisent les sites dont le contenu est dupliqué, pour :

  • Continuer à proposer aux internautes des résultats pertinents et de qualité,
  • Faciliter le travail d’indexation : ils doivent identifier quel est le site d’origine et celui qui l’a copié, appliquer des pénalités en conséquence, etc.

Une pénalité de Google peut s’exprimer par :

  • une baisse du positionnement du site dans les résultats de recherche,
  • une désindexation complète du site,
  • une forte baisse du trafic.

Il n’est pas rare que ces phénomènes se combinent pour pénaliser davantage le référencement de votre site.

Quelques astuces

Pour rendre vos contenus uniques, nous vous conseillons de procéder de la manière suivante :

Soigner vos balises <title> et <meta-description>

Optimiser les balises <title> et <meta-description> des pages en utilisant des mots et phrases qui décrivent parfaitement leurs contenus respectifs.

Définir une URL unique par contenu

Chaque contenu du site ne doit être accessible que par une URL unique pour éviter la duplication. Attention, s’il s’agit d’un site e-commerce, il est conseillé de mettre tous les produits du site directement à la racine pour éviter le duplicate content en prévention du jour où vous souhaiteriez affecter un même produit à plusieurs catégories (ce qui aurait pour conséquence de créer différentes URLs pour un même produit).

Sinon, renseigner l’URL canonique

Si un même contenu est accessible via plusieurs URLs et que, pour une raison ou pour une autre, vous ne pouvez pas mettre en place de redirection permanente (301) de l’une vers l’autre, vous pouvez toujours indiquer l’URL canonique en utilisant la balise link rel= »canonical ». Celle-ci permet d’indiquer aux moteurs de recherche l’adresse du contenu source. Grâce à l’ajout de cette balise, les moteurs sauront que le contenu des pages dites « dupliquées » se réfère à la page indiquée comme étant le contenu source.

Renseigner le fichier robots.txt

Ce fichier est consulté en premier lieu par les moteurs de recherche lorsqu’ils arrivent sur le site. Il permet de leur indiquer les dossiers et les pages à indexer, ainsi que celles à ignorer.

Lorsqu’un même contenu est accessible via plusieurs URLs, il est possible de paramétrer le fichier robots.txt pour qu’une seule URL soit indexée. Ce qui permettra d’éviter une pénalité de la part de Google. Pour cela, il faut utiliser la balise meta robots, qui permet de définir si la page en question doit être indexée. Ainsi, il faudra renseigner la valeur index sur l’URL que vous souhaitez voir indexée par Google, et la valeur noindex sur les autres.

Quelques outils pour vérifier le taux de duplication de vos contenus

D’après Olivier Andrieu, Google tolèrerait une duplication des contenus à hauteur de 70 %. Cependant, d’autres sources sont plutôt sceptiques vis-à-vis de ce pourcentage, on peut donc considérer pour plus de sécurité qu’en-dessous de 50 % de duplication les risques de se voir pénaliser par Google sont très faibles et, en deçà de 30 %, ils sont inexistants.

Voici quelques outils (liste non exhaustive) qui pourront vous aider à calculer le taux de duplication de vos contenus, soit par rapport aux pages présentes sur le web (déjà indexées par Google), soit par rapport à un autre contenu (pas encore en ligne) :

Comparaison de 2 textes en ligne

  • Positeo : permet de trouver du contenu plagié et dupliqué,
  • Webconfs : calcul le taux de similarité entre 2 contenus en ligne,
  • Copyscape : recherche le ou les copie(s) de votre page sur le web (une version gratuite pour 10 tests quotidiens et une formule payante sont disponibles),
  • PlagSpotter : recherche le ou les copie(s) de votre page sur le web,
  • OutilsRéférencement : calcul la similarité de mots-clés entre deux pages sur le web,
  • Web SEO Analytics : calcul le taux de duplication entre deux URLs présentent sur le web.

Comparaison d’un texte « hors ligne » avec un texte en ligne

  • Positeo : permet de trouver du contenu plagié et dupliqué,
  • Plagium : permet de rechercher le plagiat d’une page sur le web,
  • Plagiarisma : outil permettant de vérifier le taux de duplication d’un contenu par rapport à un texte déjà en ligne.

Comparaison de 2 textes « hors-ligne »

  • OutilsRéférencement : calcul la similarité de mots-clés entre deux contenus « hors ligne »,
  • DupeCop : outil permettant de comparer jusqu’à 4 textes entre eux ! (Cet outil peut s’avérer très pratique en cas de réécriture d’un même article. Attention : il est limité à 5 comparaison par jour).

Il existe également des outils permettant de vous aider à reformuler / paraphraser des contenus pour éviter justement la duplication : KillDc

Source photo : Flickr