La recherche d’image par le contenu

La recherche d’image par le contenu, ou Content Based Image Retrieval (CBIR), est une technique qui permet de rechercher des images en se basant sur leurs caractéristiques visuelles. Cette technologie est utilisée lorsque l’on souhaite comparer une image à d’autres afin d’en trouver des similaires.  C’est leur contenu (couleur, forme, texture…) qui est l’objet de comparaison et non plus les métadonnées accompagnant les images comme cela a longtemps été le cas sur Google Images, par exemple. Cette technique permet de contourner les aléas dus à un enregistrement manuel donc humain des métadonnées et descriptifs d’image habituels : fautes de frappe, subjectivité, erreurs d’indexation etc… et de rendre les recherches plus efficaces dans les sites d’images ou les bases de données. De plus, elle permet également d’explorer des images non-indexées, comme celles d’une caméra de vidéosurveillance.

Comment marche la recherche d’image par le contenu ?

A l’inverse des moteurs de recherche d’images qui comparent les mots-clés, la recherche d’image par le contenu s’appuie sur une indexation basée sur une ou plusieurs caractéristiques de l’image : les formes, la texture, la couleur… Une fois l’indexation de ces caractéristiques achevée, on définit une mesure de similarité globale entre deux images. Ainsi, lorsque le moteur de recherche reçoit une requête sous forme d’image, il est capable de proposer des images similaires en les classant par leur degré de proximité. On peut obtenir des résultats très satisfaisants si par exemple on recherche un paysage de plage dans une base d’images spécialisée en paysages.

On peut également faire une requête sans image de départ mais en se basant sur une forme particulière ou en ne cherchant qu’une couleur dominante.
A noter que sur Google Images, il est possible de rentrer l’URL d’une image dans le champ de requête et de voir sur quelle page web cette image a été utilisée. Les images similaires proposées sont par contre basées sur le texte accompagnant l’image de requête.

Quelles sont les applications de la recherche d’image par le contenu ?

Cette technologie, encore en développement, trouve cependant des applications concrètes.
  • Elle fait l’objet de nombreuses recherches dans le domaine de l’industrie ou de la cartographie. Le CEA a notamment développé le programme PIRIA (Program for Indexing and Research Images by Affinity), un outil qu’il est possible de tester en ligne.
  • Interpol utilise une technique CBIR pour la reconnaissance faciale, et on peut rapprocher les logiciels de comparaison d’empreintes de cette technologie.
  • Les forces armées ont certainement le plus développé la recherche d’image par le contenu. Parmi les applications militaires, on peut noter l’identification d’appareils ennemis sur les images radar, l’identification de cibles à partir d’images satellites. Il en existe certainement d’autres mais le secret militaire ne permet pas d’en connaitre les détails.
  • Le domaine de l’architecture et de la construction a aussi un besoin : les architectes ont souvent besoin de se référer à de précédentes créations dont les caractéristiques techniques sont similaires.
  • Elle permet également de protéger la propriété intellectuelle en détectant les contrefaçons dans le monde de l’art ou du commerce.
  • Elle facilite l’archivage de photographies, par exemple dans le domaine de la presse ou de la publicité.
  • Dans le domaine médical et plus précisément de l’imagerie médicale, la recherche de contenu par l’image peut aider à poser un diagnostic en comparant une radiographie avec des cas précédents lui étant proches.
  • La recherche d’image par le contenu peut également intervenir sur le filtrage d’images pornographiques ou pédophiles, ou d’images non-appropriées.
  • … et bien d’autres applications dans le domaine de l’art, de l’éducation ou des loisirs.

Quelles applications pour le Web ?

Un moteur de recherche utilise la recherche d’image par le contenu. Il s’agit du moteur canadien TinEye. Le site a déclaré en 2012 exploiter une base de données de plus de 10 milliards d’entrées, base de données en constante évolution. Il fonctionne en comparant une image requête avec les images déjà présentes sur Internet. On peut ainsi retrouver la même image mais aussi des images similaires. Google Images offre désormais les mêmes fonctionnalités.

Grâce à de tels outils, il est possible de retrouver la source d’une image, d’en trouver une version de meilleure qualité ou de vérifier que les droits d’auteur la concernant sont bien respectés. Ainsi le propriétaire de l’image peut contacter l’utilisateur abusif et lui demander soit de retirer l’image, soit de la créditer en renvoyant sur la page d’origine utilisant la photo. C’est un bon moyen pour récupérer des liens entrants et donc d’optimiser le référencement d’un site.

Si cette technologie progresse encore, elle pourra être d’une grande aide pour les agences SEO et autres acteurs du web. En effet, on peut imaginer que les moteurs de recherche prendront en compte de manière efficace la recherche d’image par le contenu, permettant ainsi un gain de temps sur le traitement et la mise en ligne des images des sites web.