Robots.txt

Le robots.txt est un fichier qui sert à indiquer aux robots d’indexation (ou spiders ou crawlers) quelles zones d’un site ils sont autorisés à analyser. Le webmaster peut ainsi contrôler, grâce à ce fichier placé à la racine du site, les informations qui ne doivent pas apparaître dans les résultats des moteurs de recherche.

A quoi sert le fichier robots.txt ?

Il faut d’abord comprendre comment fonctionnent les robots d’indexation des moteurs de recherche :
  • Le robot d’indexation, ou spider ou crawler, commence d’abord par rechercher et par vérifier si un fichier robots.txt est installé.
  • Il l’analyse afin de déterminer quelles Urls ne lui sont pas interdites.
  • Si le fichier robots.txt en donne l’autorisation, il télécharge l’URL du site.
  • La page correspondante contient probablement une liste de liens internes, que le robot télécharge.
  • Il télécharge ensuite l’ensemble des liens internes de la liste, en tenant compte des indications du fichier robots.txt.
  • A leur tour, les liens internes de ces pages sont téléchargés. Le robot les analyse.
  • Et ainsi de suite jusqu’à ce que le crawler ait fini son exploration et ne trouve plus de nouveaux liens.
Le fichier robots.txt peut donc empêcher les spiders d’accéder à certaines parties des sites. Ainsi, les URL non-autorisées (« Disallowed ») ne seront pas prises en compte lors de l’indexation des pages. Par exemple, robots.txt peut sélectionner les crawlers qu’il autorise à analyser les pages du site (seulement Google bot ou tous les robots…). Il peut aussi empêcher l’accès à un certain type de fichier (.gif, .jpg…).
Il est important de rappeler que le fichier robots.txt ne sert pas à sécuriser un site. En effet, les spiders n’ont aucune obligation de tenir compte du fichier robots.txt. C’est la différence entre les robots dits « bien élevés » et les robots « mal élevés ». Il peut s’agir d’un concurrent malveillant qui souhaite espionner votre activité en aspirant votre site. Son robot aura pour consigne de ne pas tenir compte de ce que vous indiquerez dans votre fichier robots.txt.

Autre élément à connaitre : il n’y a aucune obligation à implanter un fichier robots.txt sur son site. Au webmaster de déterminer s’il laisse aux spiders l’accès à tout son site, au risque de voir apparaître des données « sensibles » dans les résultats des moteurs de recherche.

 « Le fichier robots.txt peut donc empêcher les spiders daccéder à certaines parties des sites. »

Comment créer un fichier robots.txt ?

Pour créer un fichier robots.txt, il existe deux méthodes : manuellement, ou avec l’aide d’un outil qui permettra une génération automatique. Il ne doit y avoir qu’un seul fichier robots.txt par site. Si vous créez votre robots.txt manuellement, le nom du fichier se rédige uniquement en minuscules. Le fichier doit être rédigé sur un logiciel de traitement de texte (Notepad, par exemple). Il doit être en mode ASCII lors de son transfert.

Il contient obligatoirement les éléments suivants (une ligne par commande) :

  • Le User-Agent, qui indique les destinataires des règles du fichier, c’est-à-dire les spiders (Google bot, par exemple). Il peut permettre d’en exclure ou d’en privilégier.
  • La commande « Disallow » qui indique les Urls auxquelles le robot d’indexation ne peut pas accéder.

Voici un exemple de fichier robots.txt (le signe # permet d’intégrer un commentaire) :
# bloque l’indexation des pages administrateur
User-Agent : *
Disallow : /admin/perso

Ici, la ligne User-Agent indique par l’usage du signe * que tous les robots sont autorisés à crawler les pages du site.
La ligne Disallow interdit l’accès aux pages administrateur du site.

Il existe une directive « Allow » mais par défaut, tous les répertoires sont en mode « Allow ». Elle permet cependant d’autoriser des exceptions dans les commandes « Disallow ».

Enfin, il existe une alternative au fichier robots.txt pour interdire l’accès à certaines pages de votre site aux crawlers. Il s’agit de la balise meta robots.

Le fichier robots.txt et le référencement naturel.

Le fichier robots.txt est le premier fichier lu par les crawlers lors de l’exploration de votre site. Même s’il n’améliore pas le positionnement du site sur les moteurs de recherche, il a néanmoins un intérêt pour le référencement. En effet, il permet au webmaster ou à l’agence SEO de maîtriser ce que les crawlers doivent prendre en compte ou non pour le référencement naturel du site. Ainsi, pour les sites d’envergure, il peut être utile de guider les robots d’indexation vers les parties les plus chaudes du site, en les détournant des parties présentant le moins d’intérêt. Attention cependant à ne pas commettre d’erreurs de syntaxe dans la rédaction du fichier, car cela pourrait avoir un effet catastrophique sur l’indexation d’un site. Il est possible de vérifier que le fichier correspond à ce qu’on attend de lui en utilisant l’outil d’aide de Google  Search Console.

En conclusion, plus le site est gros ou plus certaines pages de sa sitemap hébergent un contenu sensible, plus il est intéressant de mettre en place un fichier robots.txt. Les robots d’indexation, bien guidés, tireront ainsi du site les données les plus intéressantes pour sa visibilité sur les moteurs de recherche.