Le piège à robots

Le piège à robots ou spider trap (également appelé crawler trap) désigne un obstacle empêchant fortement ou complètement l’indexation d’une page par un moteur de recherche. Les obstacles les plus rencontrés sont, la demande d’identification pour entrer sur le site (identifiant et mot de passe), ou le blocage des répertoires indiqués sur le fichier robots.txt du site.

Comment fonctionne un robot ?

Les moteurs de recherche tels Google ou Bing utilisent des robots d’indexation (ou spider, ou crawler) dont la mission est de télécharger et d’analyser le contenu des pages web et de déterminer leur classement dans la SERP (Search Engine Result Page). L’exploration par les robots comporte plusieurs étapes :
  • Le robot d’indexation explore les Urls de sites récoltées lors de précédents passages ou en exploitant les données sitemaps.
  • Chaque lien qui figure sur chaque page de site est ajouté à la liste des pages à explorer.
  • Le robot, en explorant ces pages, établit une liste de mots-clés repérés dans le contenu des sites et les stocke dans des bases de données (ou index), qui sont mises à jour régulièrement.
  • Lorsqu’un internaute effectue une requête sur le moteur de recherche, les pages correspondantes sont recherchées dans l’index afin d’afficher un résultat pertinent.
    Cependant, le webmaster peut souhaiter que les robots d’indexation n’accèdent pas à certains contenus de son site car il ne veut pas que ces données soient référencées. Afin de les en empêcher, il peut mettre en place plusieurs techniques.

Comment mettre en place un piège à robots.

Parce que certains contenus ne doivent pas être indexés car sensibles (pages non terminées, informations administrateur…), il est possible de contrer les crawlers des moteurs de recherche en mettant en place des pièges à robots.

Parmi les plus courants :

  • Il est possible de bloquer l’accès d’une ou plusieurs pages d’un site en indiquant dans le fichier robots.txt les répertoires inaccessibles, grâce à la commande « disallow ». Cependant, un robot « mal élevé » peut ne pas tenir compte de cette consigne et aspirer quand même le contenu interdit. En principe, les robots comme Googlebot sont « bien élevés » et respectent le contenu du fichier robots.txt.
  • On peut implémenter une balise meta robots. Cette balise permet de contrôler la façon dont les moteurs de recherche analysent et référencent une page. La balise noindex empêche l’indexation de la page qui la contient. Quant à la balise nofollow, elle empêche les spiders de suivre les liens contenus dans la page. Contrairement au fichier robots.txt, cette balise se place sur chaque page que l’on ne souhaite pas voir prise en compte par l’indexation. Elle est donc moins pratique que robots.txt mais est utile quand la racine du site, là où doit se placer robots.txt, est partagée (exemple : un blog hébergé par une plateforme) ou quand on souhaite sécuriser un back office (robots.txt n’étant pas sécurisé, un hacker peut potentiellement avoir accès à l’URL de cette zone interdite).
  • Imposer un identifiant et un mot de passe à l’entrée du site bloque également les spiders.
  • Il est possible d’implémenter un fichier .htaccess. Ce fichier peut notamment bloquer l’accès à un répertoire en imposant une authentification par mot de passe. Il peut aussi bloquer l’accès de certaines IP au site, ce qui peut être utile lorsqu’on a identifié des crawlers indésirables.

 « il est possible de contrer les crawlers des moteurs de recherche en mettant en place des pièges à robots »

Attention aux pièges à robots involontaires

Les exemples cités ci-dessus sont intégrés de manière volontaire sur un site. Il y a derrière leur usage un désir de ne pas voir indexer certains contenus. Cependant, certaines pratiques peuvent se révéler des pièges à robots involontaires et gêner le référencement de certaines pages. En voici quelques exemples :
  • Le duplicate content qui, s’il n’est pas toujours involontaire, peut être sanctionné par Google s’il s’avère utilisé à des fins frauduleuses.
  • Le volume du contenu : trop court, il n’est pas assez pertinent au niveau des mots-clés pour être pris en compte.
  • La qualité du contenu : pertinence, fraîcheur, orthographe et syntaxe…
  • L’utilisation du langage JavaScript. Il pose souvent problème aux robots.
  • La vitesse du site.

On retient donc que les pièges à robots utilisés de manière volontaire sont un bon moyen de guider les crawlers des moteurs de recherche dans leur navigation. Attention cependant à ne pas introduire d’erreurs dans la rédaction d’un fichier robots.txt ou d’une balise meta robots, sous peine de conséquences qui peuvent être sérieuses sur le référencement du site.

Quant aux pièges à robots involontaires, il est toujours possible de les identifier grâce aux outils Google (Google Search Console, par exemple) et de les corriger ensuite. Les agences SEO trouvent souvent les leviers pour améliorer le référencement d’un site client en débusquant ces crawler traps indésirables.