BLOG

Tout savoir sur le Digital

 

Comment Google détecte et gère le contenu dupliqué

Temps de lecture : 3 minutes

Depuis que la vérification du contenu dupliqué a été officiellement présentée par Google, on ne sais en fait pas grand chose sur la manière en interne dont le système algorithmique gère les similarités entre les pages. Aujourd’hui encore, une partie des sites présentent du contenu dupliqué sans le savoir; par des redirections mal gérées, des ID de sessions, le manque de redirections 301 ou l’absence d’URL canonique. Comment Google gère cela ?
En Angleterre, un internaute pose la question :

Comment Google gère le duplicate content ? Quels sont les effets négatifs que cela peut avoir sur le classement d’un point de vue référencement ?

Le duplicate content est courant sur la toile. Selon Matt Cutts sur la totalité du web, 25/30% du contenu est du contenu dupliqué. Il faut cependant distinguer le contenu dupliqué normal du à la citation et le contenu dupliqué pour raison de spam. Ce dernier n’apporte rien en terme de pertinence et doit être éradiquer le mieux possible des résultats pour garantir une qualité de recherche.

Fonctionnement du duplicate content chez Google

duplicate-contentL’algorithme de Google recherche en permanence les contenus dupliqués ou fortement similaires pour les opposer et afin de déterminer la page originale et la plus pertinente parmi toutes celles qui se ressemblent. De ce fait, c’est cette page qui pourra se classer dans les résultats de recherche, car les autres seront envoyées vers le bas du classement. Cela dit, Matt précise qu’on pourra toujours retrouver ces pages dupliquées quelque part dans une énième page de résultats. Preuve en est qu’elles ne sont pas désindexées mais simplement déclassées par rapport à celle qui est mise en avant.

Mais ça c’est pour le contenu dupliqué courant, car dans le cas du spam volontaire, il y a potentiellement de vrais risques de désindexation.

Les différents types de contenu dupliqué

Le contenu dupliqué normal se retrouve dans toutes sortes de sites, vous citez un auteur, une interview, un paragraphe de film, le contenu d’un blog, les journalistes citent l’AFP, etc. Bref ça arrive tout le temps. <de plus, ces citations sont courantes et n’entravent en rien la qualité de votre page, à partir du moment où celle-ci contient d’autres informations non extraites de citation. Du contenu originale en somme pour afficher une valeur ajoutée propre.
Google appelle dans ses consignes aux webmasters, contenu détourné lorsqu’il s’agit des textes issu des flux RSS . Le fait de proposer le même contenu qu’un autre site est du contenu dupliqué. Cela dit, là encore tout est une question de proportion. Si la majorité du contenu est généré par des flux, cela va ressembler à du content stitching et Google peut le voir d’un très mauvais oeil.
Le contenu dupliqué à caractère de spam est différent. Les spammeurs utilisent le travail des autres pour tenter de positionner leurs pages dans les moteurs de recherche. Avec des techniques automatiques de spin, d’algorithme de mélange des mots, d’encodage des lettres et bien d’autres techniques interdites, les spammeurs publient des textes modifiés pour essayer de passer les filtres anti-duplicate, mais dont le sens n’a pas de grande valeur pour un internaute. Ce type de spam doit être éradiqué et Google lui fait la guerre.

Encore une fois, c’est l’intention derrière l’utilisation des contenus qui prime pour une exemption de pénalités. Un site qui fournit régulièrement de l’actualité en reprenant parfois des bouts de texte, ne sera pas l’ennemi public numéro un pour Google. Mais quand l’intention est malicieuse, abusive, ou manipulatoire, la pénalité est bien dans l’air.

Vidéo 2’56 16 décembre

Nicolas Baccon
Nicolas Baccon
Fondateur de l'agence et passionné de la programmation web, du design, du marketing et des nouvelles technologies, je suis aussi rédacteur à mes heures perdues sur de nombreux sujets.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *