Le moteur  de recherche ontologique

Les moteurs de recherche sont largement plus vieux qu’internet. Dans les photothèques ou les bibliothèques, très tôt l’informatique a permis d’accéder à des données à partir d’un corpus de vocabulaire construit, un thésaurus, et permettant un descriptif simple du document.  Les systèmes ont évolué avec l’accroissement de la capacité de calcul des ordinateurs et les recherches qui se faisaient au départ sur  un corpus de vocabulaire au nombre toujours restreint de mots ont pu ensuite être faites sur du texte libre. Mais le principe est resté le même et les moteurs de recherche actuels fonctionnent encore en grande partie sur ce modèle.

Affiner la recherche ?

La recherche basée sur un corpus de vocabulaire fermé (tant pour la description que pour l’interrogation), si elle limite le champ de la description du contenu, offre l’énorme avantage de l’exhaustivité de la réponse, puisque les mots autorisés pour décrire un contenu sont imposés par le thésaurus  et connu par les utilisateurs qui font des recherches. En revanche, ce système limite la finesse de la description et quand la masse des documents s’accroît le nombre de pages retournées devient vite inexploitable.

La recherche sur texte libre quant à elle permet une description fine du document voire pour des documents écrits sur le contenu même du document, mais laisse la liberté de choix des mots utilisés à l’auteur de la description. Avec un risque dès lors qu’un grand nombre de documents soient absents du retour de recherche en raison d’une description non standardisée.

Cherchant à combiner fiabilité des recherches sur un corpus de vocabulaire fermé et richesse des recherches sur texte libre moteurs de recherche ont commencé à créer de vaste dictionnaires de synonymes, transformant en quelques sortes la recherche sur texte libre en une recherche sur un vocabulaire fermé. Ils ont simplement profité de puissance de calcul et de capacité de stockage qui évoluait au rythme de la loi de Moore pour créer des thésaurus gigantesques. Mais l’idée de base de ce mode recherche ne change pas. Il s’agit toujours de comparer des chaînes de caractères vides de sens. Mais nous avons déjà là les prémices d’un moteur ontologique puisque par exemple la recherche va remonter un résultat même si le mot clé utilisé pour faire la recherche n’est pas utilisé pour décrire le document. Le cas typique étant les recherches avec des fautes d’orthographe. Avec un moteur ne travaillant que sur un vocabulaire de mots-clés type thésaurus fermé, « ortographe » ne remontera aucun résultat. Avec un début d’approche ontologique, le moteur proposera des  résultats avec le mot : « orthographe ».

Ontologie ?

En informatique, une ontologie est l’ensemble structuré des termes et concepts visant à donner le sens d’un domaine de connaissances. Une ontologie tente de représenter de manière exhaustive les éléments et concepts concernant un domaine donné ainsi que des liaisons entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné. Elle permet d’organiser les éléments et les concepts d’un domaine de la même manière que la grammaire organise les mots d’une phrase pour leur donner un sens allant au-delà du sens de chaque mot pris séparément.

Le W3C qui gère le web et est à l’origine de ses évolutions à mis en place en 2002 un groupe de travail sur les ontologies et développé l’Ontology Web Language (OWL). Langage qui a pour objectif de permettre une représentation des connaissances en créant des logiques de description.

Les descriptions ontologiques définies par l’OWL s’intègre dans le code comme d’autre méta-données

Moteurs de recherche ontologique ou moteurs d’inférence ?

L’idée du moteur de recherche ontologique repose sur cette idée simple et d’aller au-delà d’une mise en correspondance stricte entre les mots-clés de la demande utilisateur et les mots-clés des informations stockées, pour fournir des résultats habituellement ignorés et que le moteur ontologique identifiera comme pertinent en exploitant l’ontologie du ou des domaines identifiés grâce aux mots-clés de la recherche. Rappelons que l’ontologie intervient, en organisant sous forme de mapping un ensemble de mots-clés par des relations sémantiques (ex: est-une-sorte-de, est-analogue-à, est-synonyme-de, etc…). C’est une façon technique de simuler de la connaissance sous forme d’algorithmes

Certains moteur comme Google ou Qwant par exemple intègrent déjà le concept de web sémantique, étroitement lié à l’ontologie notamment en exploitant les micro-data et autres micro formats mais aussi comme on l’a vu précédemment en exploitant les relations sémantiques du type « est synonyme de » ou « est analogue à » .En ce sens ce sont des moteurs ontologiques même si ils sont situés en bas de la chaîne. Une partie du travail de l’agence SEO consiste à équilibrer les contenus et les méta-données pour faciliter le travail des moteurs sur chacun des 3 axes.

A l’autre bout de la chaîne, les moteurs d’inférences comme Racer, ou F-OWL  vont raisonner sur des logiques  de description et exploiter toute la richesse de fichier de type OWL et plus encore.

Moteurs de recherche : 1+1=3

Aujourd’hui, les moteurs de recherche internet opérationnels utilisent les trois domaines : ontologie, taxonomie et thésaurus. L’équilibre étant toujours à trouver entre temps de réponse, exhaustivité et pertinence. L’ontologie est certainement celle qui délivre les résultats les plus pertinent, mais elle extrêmement gourmande en ressource tant au niveau de création des ontologies que de la recherche par inférence. A l’opposé, un thésaurus va délivrer un résultat simple mais très rapidement et en utilisant peu de ressources.

“Les ressemblances entre un thésaurus et une ontologie sont frappantes. Dans les deux cas, il s’agit d’un vocabulaire contrôlé, utilisé et validé par les acteurs d’un domaine. Dans les deux cas, ce vocabulaire est structuré et doté de relations sémantiques entre les termes qui le composent”, estime l’universitaire Yolla Polity. ”