Le Fichier robots.txt

 
Quand il arrive sur votre site, le robot du moteur de recherche inspecte vos pages et les indexe. Seulement vous ne souhaitez peut-être pas tout montrer aux moteurs. Pour faire le distinguo, il va falloir créer un fichier spécifique reconnu par tous les moteurs. Ce fichier est nommé par convention « robots.txt« . Il s’agit d’un fichier texte que l’on peut ouvrir avec Notepad.

Fichier robots.txt : interdire et autoriser les accès aux pages



Le fichier robots.txt informe des autorisations données pour un ou plusieurs moteurs d’accéder ou pas à des rubriques, des catégories et des pages du site. Il va indiquer le chemin à suivre, les endroits où un moteur est autorisé à entrer et ceux où il ne doit pas aller.

Le fichier « robots.txt » permet de prévenir le robot quand il est sur une page que vous ne souhaitez pas indexer. Pourquoi y aurait-il des pages que vous ne voudriez pas indexer ? Il se peut simplement qu’il y ait sur votre site des pages que vous ne souhaitez pas faire apparaître dans les pages de résultats, ou ne pas montrer aux visiteurs, les pages réservées aux administrateurs par exemple. Il ne vaut mieux pas indexer ces pages sous peine de fournir des informations sensibles aux potentiels hackeurs. Encore un exemple, certaines pages d’un forum ont des accès restreints aux membres par rapport aux visiteurs classique. Ces pages ne doivent pas être indexées, sinon les moteurs dévoileront les urls pour y accéder.

Vous pouvez de plus, grâce à ce fichier, envoyer le robot directement sur les pages que vous avez optimisé avec des mots-clés, sur votre sitemap.xml.

Les urls dynamiques avant réécriture que nous verrons dans le chapitre suivant peuvent être bloquées dans ce même fichier.

Vous pouvez construire le fichier robots.txt par vous même, nous allons voir cela dans quelques instant.

Modifier le robots.txt



Pour accéder au fichier robots.txt, il est nécessaire d’utiliser un FTP tel que Filezila, ainsi vous pouvez accéder aux fichiers du site. A la racine se trouve le fichier robots.txt que vous devez changer.

Une fois le fichier ouvert, plusieurs commandes sont possibles :

- Exclusion de toutes les pages :

User-Agent: *
Disallow: /

- Exclusion d’aucune page (équivalent à l’absence de fichier robots.txt, toutes les pages sont visitées) :

User-Agent: *
Disallow:

- Autorisation d’un seul robot :

User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /

- Exclusion d’un robot :

User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:

- Exclusion d’une page :

User-Agent: *
Disallow: /repertoire/chemin/page.html

- Exclusion de plusieurs page :

User-Agent: *
Disallow: /repertoire/chemin/page.html
Disallow: /repertoire/chemin/page2.html
Disallow: /repertoire/chemin/page3.html

- Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :

User-Agent: *
Disallow: /repertoire/

Une fois le fichier modifié selon vos besoins, il vous suffit de l’enregistrer pour en faire profiter votre site.

Plusieurs chemins pour la même page

Imaginons une ville, si cette ville a deux accès, les chances qu’elle soit visitée sont bonnes, cependant si la ville avait 6 chemins d’accès venants d’endroits différents, ses chances d’être visitée seraient beaucoup plus grandes. Sur internet avec les pages web, cela marche de la même façon, plus il y a de liens entrants vers une page mieux c’est (attention tout de même à ne pas en abuser).

Quand vous créez une page penser à la relier à d’autres pages grâce à des chemins d’accès internes au site, les liens à l’intérieur du site sont très important et doivent suivre une certaine cohérence.

>> Étape 2

Réparer les liens brisés

Savez vous ce qu’est un lien brisé ? Hé bien ce n’est pas très compliqué, je vais reprendre notre exemple avec l’indexeur Mr Bot :
il est envoyé par le moteur de recherche pour voir et indexer les nouvelles maisons (sites), pour cela il empreinte des routes et des ponts (liens externes), avant de se pointer devant votre porte (liens internes au site). Si vous le laissez entrer (fichier robots.txt), il visitera chaque pièce (page) pour en vérifier la conformité.
Dans le monde de Mr Bot, un lien cassé pourrait s’apparenter à une porte murée, il essaye d’ouvrir la porte mais il n’y pas d’accès possible.

Quand il voit un lien cassé pour accéder à une page, le robot quitte simplement la page sans l’indexer. Pour vérifier les liens sur votre site, vous pouvez cliquer dessus en attendant une mauvaise redirection ou une page 404, il existe cependant des logiciels comme validator qui permettent de vérifier tous les liens d’un site.
X