Avec le « deep learning », l’idée d’une machine apprenante, là où l’apprentissage semblait réservé au vivant, se trouve bel et bien réalisée. Les ordinateurs, soumis à un entraînement intensif, développent des stratégies leur permettant de se « représenter » une « image », visuelle, sonore ou textuelle.

laurie Chiara
Mar 24, 2017 · 8 min read
légende photo : I could be your light in the dark… par Nebraska Oddfish (licence CC BY-NC-SA 4.0)

Quand les scénaristes imaginent les relations de l’homme à la machine dans un futur lointain, en premier lieu, ce futur ne parait plus si lointain. Ensuite, l’intelligence artificielle ne semble plus devoir se cantonner à converser et à débattre avec son créateur avant de se révolter contre lui. Les auteurs semblent davantage s’interroger sur la façon dont les avancées techniques sont susceptibles de transformer l’homme, jusque dans ses ambitions cognitives. La série télévisée Black Mirror teste ainsi régulièrement des scénarios basés sur la greffe d’implants cérébraux. Ceux-ci nous permettraient de revivre des événements du passé dans les moindres détails, ils tromperaient nos sens, projetant devant nos yeux de fausses images du réel. Ils apprendraient également de notre cerveau notre façon d’avoir peur. Or, cette idée d’une machine apprenante, là où l’apprentissage semblait réservé au vivant, se trouve bel et bien réalisée. AlphaGo, l’ordinateur développé par l’entreprise Google DeepMind, après avoir suivi un « entraînement » minutieux, a battu en 2016 le multi-champion de Go, Lee Sedol. Pour autant, la victorieuse machine ne saurait probablement pas résoudre un problème de mathématiques inscrit au programme du primaire.

Derrière ce paradoxe, se cache une famille de programmes informatiques développés depuis un peu moins de dix ans. Ils constituent « l’âme » du « deep learning », ou « apprentissage profond ». Avant cette révolution, régnait en la matière le « machine learning », passé depuis au rang d’« ancêtre ». « Pour moi, la success story du machine.learning a démarré au début des années 2000, avec la méthode de « boosting » pour détecter les visages dans les photos. L’algorithme est passé du laboratoire aux mains du grand public en moins de 5 ans… du jamais vu », se souvient Frédéric Precioso, professeur des universités à UCA, attaché au laboratoire d’Informatique, Signaux et Systèmes, I3S. Un outil était né pour résoudre des tâches de reconnaissance d’images, de voix, de texte et même d’émotions. « Néanmoins, la grosse difficulté de ces méthodes consiste à savoir comment je représente les données à partir des éléments bruts (par exemple des pixels) », explique le spécialiste. Ainsi, une grosse partie du travail a résidé à cette époque dans la construction d’un guide pour la machine. Cela revient pour ainsi dire à indiquer au programme que trouver un visage peut se ramener à identifier des yeux, c’est-à-dire une forme particulière dans l’image, avec un écartement, un contraste type des blancs et des noirs, etc.

Mais en 2009, dans le domaine de la reconnaissance de la parole (identification du locuteur et de la source), se produit une petite tornade. Un challenge international est organisé sur ce thème, avec un certain nombre d’épreuves à réussir. L’équipe de Geoffrey Hinton, de Toronto, teste pour la première fois dans ce type de compétitions le deep learning et bat tous les records. « D’un coup, les taux de réussite dans la reconnaissance des données ont augmenté de 15 à 20%. C’était jusque là inimaginable », insiste Frédéric Precioso. Or, ce qui rend cette intelligence artificielle si incroyablement performante, semble être sa faculté à apprendre ses propres représentations. Autrement dit, le programme n’a plus besoin qu’on lui dise quoi chercher dans l’image pour répondre par oui ou par non à une question portant sur la présence d’un objet dans l’image. À force d’apprentissage, d’essais et d’erreurs, il développe sa stratégie. Alors, comment cela est-il possible? Les modèles de deep learning s’inspirent de l’agencement de certaines structures neuronales connues dans notre cerveau. Toutefois, ils ne « copient » pas la biologie. Pour cela, il faudrait déjà avoir percé tous les mystères qui entourent la façon dont les neurones « portent » la pensée… Au lieu de cela, les scientifiques ont cherché à élaborer un système susceptible de reproduire dans les grandes lignes le traitement de l’information dans le cerveau.

Le perceptron, premier neurone informatique

« Frank Rosenblatt a inventé en 1957 le premier neurone artificiel, alors baptisé « perceptron » », raconte Frédéric Precioso. Le « coeur » de la cellule est en fait une fonction mathématique recevant différentes entrées, à l’image des messages libérés au niveau des synapses (les zones de connexion entre neurones) dans le cerveau. « Le perceptron réalise une combinaison linéaire de toutes les informations qu’il reçoit, en prenant en considération le « poids » de chacune. Il y a alors agrégation des données puis, en sortie, une prise de décision », résume le Professeur de l’I3S. Les chercheurs ont également tenté de se rapprocher des « règles » régissant le passage des messages dans le cerveau. Ils ont notamment intégré à leur modèle la notion d’ « activation », qui correspond à déterminer un “seuil” d’information à atteindre pour prendre la décision. « Ensuite, dans les années 70, on a commencé à proposer d’agréger les neurones en réseau, en gros de faire une hiérarchie. À chaque étape, c’est-à-dire à chaque différente couche, les neurones doivent rendre le problème un peu plus facile », poursuit Frédéric Precioso. Il faudra néanmoins attendre quatre décennies pour aboutir à un système de reconnaissance de la parole aux capacités bluffantes. Et ce succès demeure très sélectif. Il n’existe en effet aucun modèle générique de deep learning.

Pour chaque tâche de reconnaissance, les architectes de l’apprentissage profond doivent réinventer la « recette magique » : un certain nombre de neurones par couche sur un nombre d’étages à redéfinir. « Il n’y a pas de règle. On tâtonne en fonction du contexte », insiste Frédéric Precioso. Cependant, souligne le chercheur, « il existe un théorème mathématique qui dit que pour n’importe quel problème, il existe un réseau à trois couches qui permettra de construire la prédiction parfaite ». Pour savoir s’il « tombe juste », le chercheur teste donc l’intelligence artificielle après l’avoir soumise à un long entraînement. Cet entrainement consiste à soumettre à la machine des milliers, voir des millions d’images (visuelles, sonores, textuelles) et de lui indiquer à chaque fois si celle-ci correspond à ce qu’on lui demande de chercher ou non (par exemple, un chat). Le recours au deep learning se trouve ainsi conditionné à l’existence de banques de données suffisamment grandes. Au bout d’un certain temps, si l’architecture fonctionne, l’ordinateur parviendra à effectuer la tâche de reconnaissance « seul », quasiment sans erreurs. Mais l’architecte, lui, ne saura pas quelle stratégie son programme a déployée…

« Si nous parvenions à décomposer à rebours le cheminement de l’intelligence artificielle, nous accéderions alors aux marqueurs qu’elle a appris à repérer. Or, la réponse pourrait réserver des surprises et éventuellement ouvrir de nouvelles voies de recherche. Pour nous, le vrai jackpot pourrait bien se trouver là », estime Laurent Vanni, Ingénieur d’Étude CNRS au laboratoire Bases, Corpus, Langage (BCL). Il travaille avec Damon Mayaffre, spécialiste en linguistique du discours politique, à la mise en ligne d’un Observatoire des discours de la campagne électorale pour la présidentielle de 2017. Ce projet s’inscrit dans le prolongement du blog que l’universitaire aixois Jean Veronis avait tenu en 2007. L’interface propose au visiteur d’analyser un extrait de discours d’un des candidats déclarés. Il affichera par exemple pour ce passage le vocabulaire dominant, les associations les plus fréquentes, le degré d’affinité du discours avec le style des autres candidats etc. Dans le modèle deep learning de BCL, développé en collaboration avec Frédéric Precioso, une phrase est une séquence de 20 mots. Celle-ci sera codée sous la forme d’une matrice de nombres. Chaque valeur numérique traduit par exemple la présence de lemmes, la forme des mots ou la fonction grammaticale. « Ces marqueurs, qui sont nos outils habituels pour l’analyse, sont comme les pixels du discours », explique Laurent Vanni.

Le Graal des architectes du deep learning : l’apprentissage non supervisé

« On n’est plus dans du texte à proprement parler. Une fois entraîné, les mots sont des vecteurs d’informations et le réseau reconnaît des morceaux de données numériques qu’il est très difficile ensuite de traduire en langage humain », relève l’Ingénieur d’Étude. À ce jour, les performances de la machine ont donc de quoi satisfaire les chercheurs. Néanmoins, des questions stratégiques se posent à eux. Car le Français Yann Le Cun, un des précurseurs du deep learning et actuellement directeur du laboratoire d’intelligence artificielle de Facebook insiste sur un point : « plus la tâche est complexe, plus il faut un temps d’apprentissage long ». Or, faute de matière suffisante disponible, les chercheurs n’ont été en capacité d’entraîner leur réseau de neurones qu’avec 7900 entrées différentes, en lui donnant à chaque fois l’auteur correspondant. Pour contourner cette limitation, une perspective possible serait de passer à un entraînement « non supervisé ». « Cela consisterait, avant d’exposer le système à des discours de campagne ciblés, à soumettre d’abord la machine à du discours politique en général », explique Laurent Vanni. L’intelligence artificielle apprendrait ainsi ce qui fait la nature politique d’un discours, comme d’autres programmes apprennent à reconnaître les contours d’une silhouette. Mais cela sera sans doute à tester au-delà de la période de campagne électorale 2017.

Le site Internet grand public développé par BCL proposera en effet, dans la continuité, une analyse du discours sous la Ve république, donc sur un corpus et un temps beaucoup plus larges. Le problème de l’accès aux bases de données demeure néanmoins d’actualité dans différents domaines de recherche. En effet, alors que Facebook et Google ne savent parfois plus que faire des nuages d’information générés sur Internet, des scientifiques s’arrachent les cheveux pour trouver comment entraîner efficacement leur système de deep learning. Adrien Bousseau, chercheur à Inria Sophia Antipolis, est spécialisé dans la création et la manipulation d’images. Il souhaite actuellement développer un logiciel capable d’assister un designer dans la représentation 3D de son projet. Cela nécessite d’entraîner l’intelligence artificielle à reconnaître un croquis, autrement dit un dessin singulier, dont il sera compliqué d’obtenir des milliers de versions/variations du même auteur. Une façon de contourner cette difficulté serait alors de générer des esquisses automatiquement, au moyen de l’informatique. Mais à l’heure actuelle, aucun logiciel ne sait produire des dessins suffisamment élaborés. « Sur un croquis, ne figurent pas que des contours. Il y a un tas d’effets d’ombrages, des hachures. Plusieurs coups de crayon se trouvent souvent superposés. C’est tout ce qui fait un « style » », souligne Adrien Bousseau.

Le chercheur s’est donc mis en quête de « comprendre comment les gens dessinent ». « Pour qu’un ordinateur parvienne peut-être à imiter le style particulier d’un utilisateur, il va falloir beaucoup expérimenter… Avant d’apprendre a un ordinateur à interpréter le dessin d’un designer, il faut lui apprendre a dessiner comme ce designer !.», explique le spécialiste. Et selon ce qu’aura choisi d’apprendre l’intelligence artificielle, le résultat pourra réserver des surprises. Frédéric Precioso qualifie les « plantages » du deep learning « d’erreurs pathologiques », aussi aussi intéressantes pour mieux maitriser cette méthode que ses succès. Appliqué à des tâches moins complexes, l’apprentissage profond n’en demeure pas moins extraordinairement performant. Il pourrait ainsi s’immiscer très vite dans notre quotidien. « Pour conduire une voiture autonome, par exemple, l’espace des entrées, en l’occurrence l’ensemble des valeurs obtenues par tous les capteurs utilisés (radar, caméra, etc.) et des sorties, dans ce cas la valeur de vitesse et l’angle de rotation des roues, n’est pas si grand… », souligne le chercheur de l’I3S.

légende photo : I could be your light in the dark… par Nebraska Oddfish (licence CC BY-NC-SA 4.0)

UCA Labs stories

Dossiers thématiques, Le décodeur minute, Mon billet pour la thèse

laurie Chiara

Written by

journaliste scientifique à Université Côte d’Azur

UCA Labs stories

Dossiers thématiques, Le décodeur minute, Mon billet pour la thèse

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade