D’Archie à Google

L’histoire de l’Internet et celle des moteurs de recherche sont intimement liées. La capacité des uns à trouver des informations pertinentes ne trouvant son intérêt que parce qu’il y a une quantité quasi infinies de données disponibles à archiver, indexer, identifier.

Après des débuts hésitants avec Archie en 1991 il fallut attendre 1994 et Yahoo ! Qui donna naissance au premier outil performant pour trouver une information sur web en s’inspirant du mode de classement des encyclopédies. Pas de robots à l’époque. Les pages étaient lues et indexées par des êtres humains, un peu comme dans les annuaires web du début des années 2000.

Parallèlement à Yahoo! et aux autres outils de recherche construits sur le modèle « annuaire/encyclopédie, les robots d’indexation commencent à apparaître. Cette mutation technologique donna naissance, en 1995, à Altavista, premier moteur de recherche comme on les connaît aujourd’hui. Altavista, entreprise cofondée par un Français, resta le moteur incontournable jusqu’à l’arrivée de Google en 1998.

Aujourd’hui, quand on pense moteur de recherche, on pense Internet et Google (qui détient plus de 92 % du marché de la recherche sur internet)

Mais il y a des moteurs de recherche ailleurs que sur le Net en tant que tel. Partout où il y a des masses de données à trier, chercher, indexer, les moteurs de recherches performants sont indispensables. Au sein des réseaux sociaux, les forums ou des encyclopédies en ligne bien sûr mais aussi pour faire des recherches dans les bases de données des entreprises et des institutions comme dans tous les datas center.

En quelques chiffres

La croissance du nombre de pages indexées et de sites répertoriés par les moteurs de recherche est l’exact reflet du développement de l’Internet au cours des 20 dernières années.

En 1996, AltaVista indexe un peu plus de 30 millions de pages et reçoit environ 10 millions de requêtes par jour.

En 2000 Google recense plus d’un milliard de page

Et en 2017

130 000 milliards de pages et documents recensés
20 milliards de pages crawlées quotidiennement
65 000 requêtes par seconde soit plus de 5 milliards par jour

Notons que le nombre  de documents recensé par Google en 2017 inclus à la fois toutes les photos publiées par les applications comme Instagram, mais aussi les centaines de millions de pages recensées dans le cadre des différents projets de numérisation du patrimoine littéraire mondial.

Le nombre de requêtes est lui plus parlant puisque Google a traité chaque jour de 2017 plus de requêtes qu’Altavista pour toute l’année 1996.

Requête et confidentialité

La protection des données et informations personnelles est un réel enjeu. Or le modèle économique actuel, qui permet l’extraordinaire rentabilité d’un moteur de recherche comme Google, est basé sur l’exploitation la plus fine possible d’habitudes de visites et de recherches des visiteurs. Aussi les moteurs « commerciaux » utilisent-ils les cookies, à la fois pour améliorer l’expérience utilisateur mais aussi pour affiner le ciblage publicitaire et donc le taux de clic sur les annonces.

Aujourd’hui les moteurs alternatifs comme Qwant, créé en 2013 sur le thème : « Le moteur de recherche qui respecte votre vie privée » ou les méta-moteurs comme IX-Quick, qui interrogent les moteurs à votre place et garantissent votre anonymat peinent à trouver leur place. Ils sont encore loin derrières Yahoo et Bing. Sans doute parce que les internautes font passer la confidentialité après la qualité et la rapidité des retours.

Moteur de recherche et SEO

Quand on est un internaute, ce qu’on demande à un moteur de recherche, c’est de remonter rapidement des résultats pertinents. Et lorsqu’on est éditeur de site internet, ce qu’on cherche c’est à être visible. Or, en souriant, certains spécialistes du comportement des internautes disent : «  Sur la quatrième page de Google, on peut cacher un cadavre ».

Autrement dit, pour qu’un site existe, il faut qu’il sorte à la première page ou éventuellement à la deuxième page de réponse du moteur de recherche. Et pour arriver à ce résultat il n’y a que deux moyens : acheter de la publicité ou essayer de comprendre le fonctionnement des robots et construire les pages pour les rendre “crawlers friendly “. C’est le rôle des spécialistes de l’optimisation du contenu que sont les agences SEO. Parallèlement, les moteurs de recherche doivent fournir rapidement des résultats pertinents pour séduite et fidéliser les internautes et donc les annonceurs. Ce qui les amène à faire évoluer les algorithmes à la fois pour gagner en rapidité mais aussi pour éviter de faire remonter en page une des sites peu pertinents mais très bien optimisés.

Et demain ?

Les moteurs de recherches sont indispensables à l’utilisation d’internet au même titre que les navigateurs et aujourd’hui Google parait indétrônable et les deux suivants, Yahoo et Bing, avec moins de 3 % de part de marché  chacun, semblent incapables de lutter. Mais de la pertinence, de l’objectivité et de la rapidité des réponses dépendent la fidélité des internautes à tel ou tel moteur. Raison pour laquelle les algorithmes utilisés par les moteurs sont gardés au secret comme la formule du Coca Cola. Et de la même manière que personne n’avait prévu en 1996 que Google dominerait à ce point le marché, personne ne peut sans doute dire si dans 20 ans Google sera toujours le leader incontesté, ni même si les moteurs de recherches seront toujours construits sur le même modèle.