Pas mal de débats sur ce petit fichier... robots.txt. Est-il réellement utile ? comment le remplir ?

A quoi ça sert ?

Il s'agit d'un protocole d'exclusion des robots. En clair un fichier que tout robot, bien intentionné doit lire et respecter. Il permet de déclarer un répertoire, un fichier, et de manière générale n'importe quelle ressource, de façon à ne pas être indexé par un ou des moteurs de recherches.

 

C'est un simple fichier texte à placer à la racine de votre site : www.monsite.com/robots.txt

Empêcher l'indexation de votre répertoire /photos/ s'écrit comme suit (dans robots.txt)

 

User-agent: *
Disallow: /photos/

 

Explications :

  • User-agent  : permet de spécifier à quel robot vous vous adressez, googlebot, yahoo, bing etc... ici on utilise * comme wildcard pour spécifier tous
  • Disallow : permet de spécifier ce qui ne doit pas être indéxé, répertoire, fichier. Disallow supporte aussi la wildcard *, par exemple si vous aviez des répertoires /photo-a/, /photo-b/.... /photo-z/ votre disallow pour s'écrire Disallow : /photo-*

Les robots peuvent ne pas respecter les directives que vous leurs indiquez, mais il est de sens commun qu'elles sont toujours lues. Alors oui cela peut aussi donner des indications à des petits malins pour voir qu'elle est l'arborescence de votre site, voir deviner quel CMS vous utilisez. C'est exact... mais franchement il y a des dizaines d'autres moyens que de lire le robots.txt, son utilisation n'est pas remise en cause pour ça. Utilisez le avec intelligence.

Et si on ajoutait la déclaration d'un sitemap... ça vous irais

Beaucoup l'ignorent, mais c'est également dans le robots.txt qu'on peut déclarer la présence d'un ou plusieurs sitemap.xml pour son site. La syntaxe est simplement la suivante

 

Sitemap: http://www.mon-domaine.fr/sitemap.xml

 

Ainsi un bot/moteur/robot malin trouvera votre sitemap sans que vous ayez forcement besoin de lui déclarer. Et si vous avez plusieurs sitemap, vous pouvez dupliquer la ligne.

Pour aller plus loin et être incollable sur le sujet je vous invite à parcourir ces liens :

Recherche & Partage