Comment Google détecte et gère le contenu dupliqué

20 décembre 2013

Depuis que la vérification du contenu dupliqué a été officiellement présentée par Google, on ne sais en fait pas grand chose sur la manière en interne dont le système algorithmique gère les similarités entre les pages. Aujourd’hui encore, une partie des sites présentent du contenu dupliqué sans le savoir; par des redirections mal gérées, des ID de sessions, le manque de redirections 301 ou l’absence d’URL canonique. Comment Google gère cela ?
En Angleterre, un internaute pose la question :

Comment Google gère le duplicate content ? Quels sont les effets négatifs que cela peut avoir sur le classement d’un point de vue référencement ?

Le duplicate content est courant sur la toile. Selon Matt Cutts sur la totalité du web, 25/30% du contenu est du contenu dupliqué. Il faut cependant distinguer le contenu dupliqué normal du à la citation et le contenu dupliqué pour raison de spam. Ce dernier n’apporte rien en terme de pertinence et doit être éradiquer le mieux possible des résultats pour garantir une qualité de recherche.

Fonctionnement du duplicate content chez Google

duplicate-contentL’algorithme de Google recherche en permanence les contenus dupliqués ou fortement similaires pour les opposer et afin de déterminer la page originale et la plus pertinente parmi toutes celles qui se ressemblent. De ce fait, c’est cette page qui pourra se classer dans les résultats de recherche, car les autres seront envoyées vers le bas du classement. Cela dit, Matt précise qu’on pourra toujours retrouver ces pages dupliquées quelque part dans une énième page de résultats. Preuve en est qu’elles ne sont pas désindexées mais simplement déclassées par rapport à celle qui est mise en avant.

Mais ça c’est pour le contenu dupliqué courant, car dans le cas du spam volontaire, il y a potentiellement de vrais risques de désindexation.

Les différents types de contenu dupliqué

[intense_content_section]
[intense_collapsibles expand_icon=”angle-down” collapse_icon=”angle-up” icon_size=”1″]
[intense_collapse title=”Contenu dupliqué normal” active=”0″]Le contenu dupliqué normal se retrouve dans toutes sortes de sites, vous citez un auteur, une interview, un paragraphe de film, le contenu d’un blog, les journalistes citent l’AFP, etc. Bref ça arrive tout le temps. <de plus, ces citations sont courantes et n’entravent en rien la qualité de votre page, à partir du moment où celle-ci contient d’autres informations non extraites de citation. Du contenu originale en somme pour afficher une valeur ajoutée propre.[/intense_collapse]
[intense_collapse title=”Contenu dupliqué détourné”]Google appelle dans ses consignes aux webmasters, contenu détourné lorsqu’il s’agit des textes issu des flux RSS . Le fait de proposer le même contenu qu’un autre site est du contenu dupliqué. Cela dit, là encore tout est une question de proportion. Si la majorité du contenu est généré par des flux, cela va ressembler à du content stitching et Google peut le voir d’un très mauvais oeil. [/intense_collapse]
[intense_collapse title=”Contenu dupliqué spam”]Le contenu dupliqué à caractère de spam est différent. Les spammeurs utilisent le travail des autres pour tenter de positionner leurs pages dans les moteurs de recherche. Avec des techniques automatiques de spin, d’algorithme de mélange des mots, d’encodage des lettres et bien d’autres techniques interdites, les spammeurs publient des textes modifiés pour essayer de passer les filtres anti-duplicate, mais dont le sens n’a pas de grande valeur pour un internaute. Ce type de spam doit être éradiqué et Google lui fait la guerre.[/intense_collapse]
[/intense_collapsibles]
[/intense_content_section]

Encore une fois, c’est l’intention derrière l’utilisation des contenus qui prime pour une exemption de pénalités. Un site qui fournit régulièrement de l’actualité en reprenant parfois des bouts de texte, ne sera pas l’ennemi public numéro un pour Google. Mais quand l’intention est malicieuse, abusive, ou manipulatoire, la pénalité est bien dans l’air.

Vidéo 2’56 16 décembre

Rubrique de l'article: Vidéos
Cbcf4390b9134261a05381ab86116e8a[1]

Nicolas Baccon

Fondateur de l’agence et passionné de la programmation web, du design, du marketing et des nouvelles technologies, je suis aussi rédacteur à mes heures perdues sur de nombreux sujets.

0 Commentaires

Nous joindre

Vous pouvez nous joindre par téléphone

Du lundi au vendredi, de 9h à17h30

04 84 49 28 73

PARLEZ-NOUS DE VOTRE
PROJET
AUTOUR D’UN CAFÉ


Adresse :

6384 rue Obsidienne
13510 Éguilles


Présentation en vidéo



Cookies
Le site utilise des cookies pour suivre et améliorer votre expérience de navigation. En continuant à naviguer, vous nous autorisez à déposer des cookies.
Lire notre politique de confidentialité
Configurer Cookies
Accepter
Refuser
Cookies
Le site utilise des cookies pour suivre et améliorer votre expérience de navigation. En continuant à naviguer, vous nous autorisez à déposer un cookie à des fins de mesure d'audience.
Politique de confidentialité
Configurer
Accepter
Refuser