Intelligence artificielle : le pari de la reconnaissance visuelle

Sur le web, plus de ¾ du contenu et des données sont visuels. Rien que sur les réseaux sociaux, des milliers d’images et de vidéos sont ajoutées chaque jour. Et la tendance du « tout image » n’est pas près de s’arrêter. L’identification et le traitement d’images sont aujourd’hui des enjeux majeurs pour les ingénieurs de l’intelligence artificielle (IA).

Un ordinateur « simple » n’est pas capable de visualiser d’analyser des images comme les humains en sont capables. C’est là que l’IA entre en jeu. En permettant aux machines de pouvoir reconnaître des données visuelles, qu’elles soient sous forme d’image ou de vidéo.

L’image à la base du Deep Learning

Né dans les années 90, le concept de « Machine Learning » était déjà fondé sur cette capacité de reconnaissance visuelle. Depuis les années 2010, on parle même de « Deep Learning » pour caractériser les réseaux artificiels de neurones ordonnés en couches successives.

Le principe est simple : la conception d’algorithmes permettant à un ordinateur d’apprendre par lui-même à reconnaître des objets ou des scènes entières, de la même façon qu’un enfant le fait en explorant le monde. Ainsi, en nourrissant un modèle d’IA avec un nombre important d’images, il va doucement apprendre à reconnaître l’objet ou la scène en question dans des situations différentes.

Concrètement, un réseau neuronal artificiel est créé afin de pouvoir traiter chaque pixel d’une image ou d’une vidéo. Chaque neurone du réseau analyse un petit groupe de pixels, ce qui permet d’étudier de manière beaucoup plus efficace les rapports entre les pixels adjacents. Un nombre très important d’images est envoyé à ce réseau afin qu’il puisse s’entraîner à reconnaître ultérieurement des images similaires, en les comparant aux images déjà traitées.

Cliquez sur l’image pour découvrir comment fonctionne le DEEP LEARNING

Beaucoup plus rapidement qu’un être humain, l’intelligence artificielle est capable aujourd’hui d’identifier et de reconnaître un très grand nombre d’éléments :

  • Des personnes humaines ainsi que leurs visages (la reconnaissance faciale),
  • Des objets,
  • Du texte,
  • Des logos, des sigles.

La reconnaissance visuelle, atout pour les entreprises

Google utilise l’IA pour YouTube.

Grâce aux frameworks CUDA et TensorFlow utilisés sur des GPUs, Google a pu diviser par 4 le temps requis pour ajouter des sous-titres automatiques aux images stockées sur les serveurs de la compagnie ainsi qu’aux milliards de vidéo disponibles sur le service de streaming du groupe, YouTube.

Leur modèle a été nourri par des images contenant des sous-titres ajoutés de manière manuelle. De cette façon, il est capable d’ajouter le même sous-titre à une image similaire, ou même d’en créer de nouveaux lorsqu’il se trouve face à une situation inédite mais dont les composants ont déjà été rencontrés sur différentes images au préalable.

Google utilise l’IA pour identifier des images et les sous-titrer (source : Google).

Entreprise 2 : Lose It, l’IA allié du manger sain

LoseIt ! est une application à but diététique qui propose de calculer le nombre de calories présentes dans la nourriture. Grâce au Deep Learning, une nouvelle fonctionnalité appelée Snap a été implémentée, qui est capable de reconnaître les aliments d’une photo envoyée par un utilisateur et de déterminer le nombre de calories présentes dans l’objet de cette photo. Le réseau neuronal mis en place a été entraîné avec une base de données regroupant 230000 photos de nourriture.

L’IA de Lose IT mesure les calories d’un aliment à partir d’une image (source : Lose It)

L’un des avantages du Deep Learning est que l’IA s’améliore au fur et à mesure qu’elle est nourrie avec des données. Ainsi, grâce aux 4 milliards de photos ajoutées par les utilisateurs depuis 2008, elle est devenue bien plus efficace qu’auparavant pour identifier avec précision les différents éléments d’une photo.


Quelques champs d’application de la reconnaissance visuelle :

  • Les voitures autonomes : identification des panneaux, des piétons, des voitures environnantes;
  • La recherche par image sur le Web : recherche d’images similaires à partir d’une autre image;
  • L’identification de scènes dans un film ou une série TV pour les classer dans un grand nombre de thèmes ou « tags ». Amélioration des recommandations pour les sites de streaming vidéo;
  • La classification automatique de contenu visuel (images et vidéos) par les réseaux sociaux et les sites de partage de vidéos;
  • La médecine, détection de tumeurs dans les scans IRM.
#CarrementBechtle

Leave a Reply

Your email address will not be published. Required fields are marked *