L’Intelligence Artificielle Racontée à mes Neveux et Nièces (3)

Marc Caillet
26 min readDec 1, 2021

--

Intelligence Artificielle, Machine Learning, Deep Learning, c’est pas un peu la même chose, tout ça ?

(Astou, 18 ans, avec Hilary et Mehdi, 18 ans, et Driss, 15 ans)

Où l’on différencie clairement Intelligence Artificielle, Machine Learning et Deep Learning et où l’on s’interroge sur les raisons du succès récent du Deep Learning.

Marc
8-)

Non, et tu fais bien de poser la question !

Astou
(¬_¬)

Je m’en doutais… C’est quoi la différence, exactement ?

Mehdi, Hilary & Driss
(¬_¬)

Marc
8-)

L’intelligence Artificielle, c’est tout simplement le domaine de recherche et d’ingénierie qui a pour objet la création d’intelligences artificielles. Et une intelligence artificielle, vous savez maintenant ce que c’est. On en a longuement discuté la dernière fois !

Driss
=]

Ben ouais, on connait !

Astou & Hilary
=]

Clair !

Mehdi
=]

Oui, oui.

Marc
8-)

C’est… ?

Astou, Hilary, Mehdi, Hilary
=]

Une machine construite comme un agent rationnel !

Marc
8-)

C’est-à-dire comme une entité qui perçoit son environnement à l’aide de capteurs et agit sur cet environnement à l’aide d’effecteurs dans le but d’atteindre un objectif donné ! Avec, de plus, la capacité d’apprendre à faire les tâches pour lesquelles on les a conçues !

Astou
=]

Une voiture autonome, par exemple, c’est une intelligence artificielle !

Mehdi
=]

Un système qui classe tout seul les photos de la NASA dans différentes catégories, comme galaxie ou étoile naine ou supernova, c’est aussi une intelligence artificielle !

Driss
=]

Il y en a qui jouent à des jeux, aussi. Comme celle qui joue super bien au jeu de Go ! On l’a vue avec toi, dans un documentaire, l’autre jour.

Marc
8-)

AlphaGo !

Hilary
=]

Et c’est très différent de celles qu’on trouve dans les films ou dans les romans !

Marc
8-)

En effet, les intelligences artificielles qui connaissent actuellement un développement exceptionnel sont dites spécifiques. Elles sont destinées à effectuer une tâche unique ou un petit nombre de tâches similaires.

Dans les films et dans la littérature, on trouve plutôt des intelligences artificielles dites généralistes, capables de faire tout ce que peut faire un humain et plus. Et puis, dans de nombreux cas, elles semblent penser et agir comme des humains.

Bien ! Je vois qu’on est au point à propos de l’Intelligence Artificielle !

Astou, Hilary, Mehdi & Driss
=]

Astou
(¬_¬)

Et Machine Learning, c’est quoi, alors ?

Mehdi, Hilary & Driss
(¬_¬)

Marc
8-)

Machine Learning désigne une famille d’approches pour la création d’intelligences artificielles. C’est aujourd’hui celle qui, de loin, suscite le plus grand nombre de travaux..

Hilary
=]

Il en existe d’autres ?

Marc
8-)

Dans les grandes lignes, il en existe deux.

L’approche Machine Learning a pour objectif de doter une machine de la capacité à apprendre. Elle est fondée principalement sur l’algèbre linéaire, les statistiques et les probabilités.

Driss
(¬_*)

Ah oui, voilà ! On en a parlé la dernière fois !

Marc
8-)

Tout juste !

L’autre approche, on en a aussi parlé la dernière fois. C’est celle qui a pour objectif de créer des intelligences artificielles capables de penser rationnellement. On les appelle systèmes experts. Cette approche est essentiellement fondée sur la logique.

Hilary
(¬_*)

Ah oui, je m’en souviens !

Mehdi
(¬_¬)

Il y a des chercheurs qui travaillent selon la deuxième approche ou plus du tout ?

Marc
8-)

Plus beaucoup, à ma connaissance.

Driss
(¬_¬)

Donc, Machine Learning, c’est pas du tout comme quand j’étais au collège et que je programmais des petits robots, alors !

Marc
8-)

Eh non, Driss ! C’est très différent !

Driss
(¬_^)

Marc
8-)

Lorsque tu programmais tes petits robots, tu leur disais exactement quoi faire, n’est-ce pas ?

Driss
(¬_¬)

Oui, voilà ! Avec différents langages de programmation, même !

Marc
8-)

Eh bien, ce que tu faisais, c’est de la programmation au sens classique. Tu écris un programme, dans un langage de programmation ou un autre, par lequel tu donnes des instructions précises à la machine : fais-ci, puis fais ça ; si il se produit tel événement alors fais ceci, sinon fais cela… Ainsi, si tout se passe bien, ton robot fait exactement ce que tu lui as demandé de faire.

Driss
(¬_¬)

Euh… ben oui !

Mehdi, Hilary & Astou
(¬_¬)

Marc
8-)

Avec l’approche Machine Learning, l’élément clé est l’apprentissage.

Driss
(¬_^)

Astou
(*_*)
Ah ben, oui ! Learning !…

Driss
(¬_*)

Ah oui ! Donc, avec l’approche Machine Learning, je ne donne pas d’instructions au robot. Je lui dis juste ce qu’il doit faire et je lui apprends à le faire.

Marc
8-)

C’est bien ça, Driss.

Hilary
(¬_¬)

Comment il fait pour apprendre, le robot ? Ou une machine en général…

Marc
8-)

Il y a plusieurs façons de doter une machine de la capacité à apprendre.

Tu peux lui présenter des exemples et lui dire de quoi il s’agit. La machine va tout d’abord tenter de prédire ce que représente la photo, puis comparer avec la réponse que tu lui as donnée.

Dans ce cadre-là, pour apprendre à une machine à reconnaître une galaxie, tu lui donnes de nombreux exemples. Tu commences par lui montrer une première photo de galaxie ; la machine tente de dire de quoi il s’agit. Si elle prédit qu’il s’agit d’une galaxie, la comparaison de cette prédiction avec la réponse que tu lui as fournie lui permet de savoir que sa prédiction est correcte.

Ou bien, si on reprend l’exemple du robot de Driss et en supposant qu’il ait pour tâche de ranger trier des cubes et des sphères, on procéderait de la même façon : on lui présente un cube en lui indiquant qu’il s’agit d’un cube ; le robot tente de prédire si ce que tu lui as présenté est un cube ou une sphère et il compare avec l’indication que tu lui as donnée.

Mehdi
(¬_¬)

Et si elle prédit que c’est euh… une supernova ? Ou que le cube est une sphère ?

Marc
8-)

Si elle se trompe dans sa prédiction, la comparaison avec la réponse que tu lui as donnée lui indique qu’elle s’est trompée. La machine ajuste alors ses paramètres de façon à minimiser le risque de refaire cette erreur. Et cette opération, tu la répètes un grand nombre de fois, jusqu’à ce que la machine ne commette presque plus d’erreurs.

On appelle cette méthode l’apprentissage supervisé. Supervisé, parce qu’on assiste la machine à chaque étape de son apprentissage.

Mehdi
(¬_¬)

Alors, il est possible que la machine fasse beaucoup d’erreurs pendant qu’elle apprend, non ? Elle ne trouve pas la bonne réponse tout de suite…

Marc
8-)

Non seulement c’est possible, mais c’est de cette façon que ça se passe à chaque fois : pour apprendre, la machine procède par essais-erreurs. Autrement dit, elle progresse vers la bonne solution en faisant des essais, puis en s’ajustant en fonction des erreurs commises.

Hilary
(¬_¬)

Et on peut faire autrement ? T’as dit qu’il y a plusieurs façons…

Marc
8-)

Oui. On pourrait aussi donner tout un tas de photos à la machine sans lui dire de quoi il s’agit. On la laisse ensuite se débrouiller pour trouver des similarités et des différences entre toutes ces photos, puis pour rassembler par groupes les photos qui, selon son analyse, représentent plus ou moins la même chose.

Hilary
(¬_¬)

Mais là, la machine ne sait pas si un groupe est celui des galaxies, ni ce qu’il y a dans les autres…

Marc
8-)

En effet. Si on a besoin de nommer les groupes obtenus, il est nécessaire qu’un humain les explore, puis indique ce qu‘ils représentent.

Cette méthode d’apprentissage s’appelle apprentissage non supervisé. Non supervisé, car on laisse la machine se débrouiller durant toute la phase d’apprentissage.

Driss
(¬_¬)

Et c’est laquelle la meilleure ?

Marc
8-)

Dans l’absolu, il n’y en a pas une qui soit meilleure que l’autre. Le choix de la meilleure méthode dépend de ton objectif.

Dans l’exemple simple des photos de la NASA et si ton objectif est de créer un moteur de recherche de ces photos, on opterait pour une méthode d’apprentissage supervisé car on chercherait à classer précisément les photos en fonction de leur catégorie.

Driss
(¬_*)

Et mon robot, on pourrait le laisser se débrouiller pour apprendre ce qu’est un cube et ce qu’est une sphère !

Marc
8-)

Et puis des méthodes d’apprentissage supervisé, tout comme d’apprentissage non supervisé, il en existe tout un tas !

Ce qui importe avant tout, ce n’est pas la méthode elle-même. C’est la capacité de la machine, une fois son apprentissage terminé, à prédire correctement ce que représentent les photos de la NASA qu’elle n’a jamais vues au cours de la phase d’apprentissage. Ou encore, pour le robot de Driss, ce qui compte, c’est sa capacité à prédire correctement ce que sont des cubes et des sphères qu’il n’a jamais vus durant son apprentissage.

Astou
(¬_*)

En fait, pendant son apprentissage, le robot va essayer de trouver des éléments communs à tous les cubes qu’on ne trouve pas dans les sphères, et des éléments communs à toutes les sphères qu’on ne trouve pas dans les cubes, non ? Et après, ça lui permet de reconnaître des cubes et des sphères qu’il n’a jamais vus avant. C’est comme s’il généralisait à partir des exemples qu’on lui a montrés.

En tout cas, je crois que c’est comme ça que je ferais, moi, si je devais trier des cubes et des sphères.

Hilary
(¬_¬)

Sauf que c’est une tâche évidente pour nous. On n’a même pas besoin d’y penser !

Astou
(¬_¬)

Non, mais je veux dire, si j’essaie d’analyser comment mon cerveau fonctionnerait… Même pour faire des choses évidentes, on pense, même si on n’en a pas forcément conscience.

Marc
8-)

Eh bien, le processus d’apprentissage fonctionne exactement comme vient de le décrire Astou : par une succession d’essais et d’erreurs, encore une fois, la machine tente d’identifier des motifs récurrents pour chaque type d’objets qu’elle doit être capable d’identifier !

Si, à l’issue de cette phase d’apprentissage, l’intelligence artificielle est capable de reconnaître, en faisant très peu d’erreurs, des objets qu’elle n’a jamais vus auparavant, on dit qu’elle a un fort pouvoir de généralisation.

Hilary
(¬_¬)

Il y en a d’autres, encore, des façons de faire apprendre une machine ?

Marc
8-)

Oui, il existe une troisième méthode d’apprentissage ! Elle consiste à assigner un objectif à la machine, puis à la laisser évoluer de façon autonome dans son environnement et expérimenter différentes décisions. On peut lui imposer des contraintes aussi. Si la décision prise et l’action qui en a découlé permettent à la machine de se rapprocher de son objectif sans enfreindre les contraintes, alors la machine est récompensée. Sinon, elle est pénalisée.

Mehdi
(¬_¬)

Et la machine, elle va essayer d’avoir la plus grosse récompense possible, j’imagine ?

Marc
8-)

Oui, voilà, c’est tout à fait ça ! On appelle cette méthode l’apprentissage par renforcement. Renforcement parce qu’on cherche à inculquer à la machine le bon comportement à coups de récompenses et pénalités.

Hilary
(¬_*)

Comme à l’école avec les bonnes notes et les mauvaises notes !

Driss
(¬_^)

Et donc, si je veux construire un robot et lui apprendre à aller d’un point à un autre, c’est comme ça que je dois faire ?

Marc
8-)

C’est-à-dire ? Comment procéderais-tu ?

Driss
(¬_¬)

Ben, déjà, je lui donnerais des points s’il reste sur la route et je lui en enlèverais s’il roule sur les trottoirs ou s’il essaie de passer à travers les maisons…

Mehdi, Hilary & Astou
=D

Marc
8-)

C’est un bon début ! Mais si tout va bien et si tu te contentes de ça, ton robot pourrait très bien rouler indéfiniment — ou plutôt jusqu’à épuisement de sa batterie — sur les routes, sans nécessairement atteindre sa destination.

Driss
(¬_¬)

Hmmm… Dans ce cas, il faudrait lui donner de plus en plus de points quand il se rapprocherait du point d’arrivée, et de moins en moins quand il s’éloignerait. Et puis, si on veut qu’il y arrive le plus vite possible, il faudrait donner des points en fonction de la distance…

Marc
8-)

Tu as bien compris le principe !

Driss
=]

Mehdi & Astou
(*_*)

Hilary
(¬_¬)
Hmmm…

Marc
8-)

Oui, Hilary !

Hilary
(¬_¬)

Comment elle fait, l’intelligence artificielle, pour apprendre ? Je veux dire… De quelle façon est-elle conçue ? On programme la capacité d’apprentissage ?

Marc
8-)

Excellentes questions ! Alors, oui, on programme la capacité d’apprentissage ! Tout comme on programme la capacité de raisonnement logique des systèmes experts.

Et il existe différentes façons de programmer cette capacité. Celles qui rencontrent le plus grand succès, depuis une dizaine d’années, sont conçues suivant une approche appelée Deep Learning.

Astou
(¬_*)

Ah, voilà ! Deep Learning ! Et donc, c’est pas encore pareil que Machine Learning, si je comprends bien !

Marc
8-)

Tu comprends bien ! Cette appellation, Deep Learning, désigne une famille de techniques d’apprentissage. Dans ce cadre-là, le processus cognitif artificiel repose sur un réseau de neurones artificiel. Ce réseau de neurones est un programme informatique dont la structure et le mode de traitement de l’information s’inspirent du fonctionnement des réseaux de neurones biologiques, celui des humains en particulier.

Astou, Hilary, Mehdi & Driss
(¬_^)

Marc
8-)

Andrew Ng est professeur à l’Université de Stanford. Il est aussi cofondateur de Google Brain, deeplearning.ai et Coursera. Il a déclaré, à propos de l’approche Deep Learning : “Le Deep Learning est un super-pouvoir. Avec, vous pouvez doter un ordinateur de vision, produire des créations artistiques, traduire d’une langue à une autre, réaliser des diagnostics médicaux, ou construire des parties de voitures capables de conduire elles-mêmes. Si ce n’est pas un super-pouvoir, je ne sais pas ce que c’est.

Astou, Hilary, Mehdi & Driss
(*_*)

Driss
=)

Il est vraiment très enthousiaste !

Marc
8-)

Il n’est pas le seul ! Geoffrey Hinton, l’un des pionniers du Deep Learning, a déclaré, lors d’une interview accordée à Karen Hao pour Technology Review, que cette approche de l’apprentissage permettra de reproduire l’intelligence humaine. Cela nécessitera toutefois quelques avancées conceptuelles, ainsi que la capacité à concevoir et exploiter des réseaux de neurones avec bien plus gros que le plus gros réseau de neurones existant actuellement.

Mehdi
(¬_¬)

Si une intelligence artificielle reproduit l’intelligence humaine, alors ce sera une intelligence artificielle généraliste, non ?

Marc
8-)

Tout juste, Mehdi !

Astou
(¬_¬)

Mais, ça ressemble à quoi un réseau de neurones artificiel ? Un biologique, comme dans le cerveau, je vois à peu près, mais un artificiel…

Marc
8-)

C’est un programme informatique dans lequel sont codés deux types d’éléments, principalement : des neurones et les connexions entre ces neurones qui sont un peu l’équivalent des synapses du cerveau. Les neurones sont organisés par couche ; les neurones d’une couche sont connectés à ceux de la couche précédente ainsi qu’à ceux de la couche suivante. Chaque connexion — chaque synapse — est porteuse d’un poids.

Mehdi
(¬_¬)

Et d’où il sort, ce poids ? Comment est-il calculé ?

Marc
8-)

Il est calculé pendant la phase d’apprentissage. Au tout début, les poids sont initialisés avec des valeurs déterminées par une méthode statistique. Ensuite, au cours de son apprentissage, l’intelligence artificielle modifie ces poids chaque fois qu’elle commet une erreur de prédiction de façon à pouvoir répondre correctement dans la très grande majorité des cas.

Mehdi
(¬_¬)

À quoi il servent, ces poids ?

Marc
8-)

Un peu comme pour le cerveau, c’est une valeur qui contribue à déterminer si le neurone cible sera activé ou non. On peut la nommer pondération synaptique.

L’ensemble des neurones et des synpases forment le réseau de neurones. La première couche représente l’information brute, telle qu’elle a été captée ; la dernière représente toutes les classes connues de l’intelligence artificielle, dans le cas d’une intelligence artificielle destinée à classifier.

La pondération synaptique détermine la façon dont l’information se propage d’une couche à l’autre, depuis la première couche jusqu’à la prise de décision, à l’autre bout du réseau.

Au fur et à mesure de la propagation de l’information d’une couche à une autre, l’intelligence artificielle s’en fait une représentation de plus en plus abstraite jusqu’à en extraire des formes ou des concepts à partir desquels elle prend sa décision.

Driss & Hilary
(@_@)

Astou
(o_^)

Mehdi
(¬_¬)

Par exemple, comment ça marche avec une photo d’une galaxie ?

Marc
8-)

Supposons que nous ayons créé une intelligence artificielle à laquelle nous avons appris à classer les photos de la NASA dans différentes catégories.

Mehdi
(¬_¬)

Je lui montre ma photo de galaxie…

Marc
8-)

Les neurones de la première couche du réseau représentent la photo telle qu’elle a été captée par ta caméra ou ton appareil photo. Un peu comme les neurones de ton cerveau reliés au canal optique représente ce que tes yeux ont capté. Au moment où tu présentes ta photo à l’intelligence artificielle, ses pondérations synaptiques ne changent plus. Elles restent dans l’état où elles se trouvaient à la fin de la phase d’apprentissage. D’une certaine manière, elles représentent l’état des connaissances de l’intelligence artificielle à propos des différentes classes de photos de la NASA.

Astou, Driss & Hilary
(^_^)

Aaaah… !

Mehdi
(¬_¬)

Et après la première couche du réseau de neurones ?

Marc
8-)

Après, la représentation initiale de la photo se propage à travers le réseau, de couche en couche. À chaque couche, certains neurones sont activés, d’autres non. Leur activation dépend des pondérations portées par les synapses qui les relient aux neurones de la couche précédente et de l’état de ces neurones, c’est-à-dire s’ils ont été activés ou non. Au bout du compte, au niveau de la dernière couche, une probabilité est affectée à chaque neurone : celui dont la probabilité est la plus élevée correspond à la classe à laquelle appartient la photo, selon l’intelligence artificielle.

Driss
(^_^;)

C’est beaucoup plus clair avec un exemple !

Marc
8-)

On vient de discuter spécifiquement de l’apprentissage supervisé dans un cadre Deep Learning. Mais le principe général est le même pour l’apprentissage non supervisé et pour l’apprentissage par renforcement dans ce même.

Astou, Mehdi & Driss
(*_*)

Hilary
(¬_¬)

Oui, mais attends ! Ces instructions, c’est juste une collection de pondérations et de fonctions mathématiques ?

Marc
8-)

C’est bien ça, oui. Il y a quelque chose qui te dérange ? J’ai comme l’impression que cette idée ne te plaît pas beaucoup.

Hilary
(¬_¬)

Ben, c’est juste un ensemble de nombres et de fonctions ! Ça veut dire qu’on ne peut pas les comprendre, nous, ces instructions !

Marc
8-)

En effet ! Elles nous sont inintelligibles.

Astou, Mehdi & Driss
(o_O)

Oh !

Hilary
(¬_*)

Avec les systèmes experts, ça doit être différent, non ?

Marc
8-)

Qu’est-ce qui te fait penser ça ?

Hilary
(¬_*)

Ben, c’est parce que la logique de raisonnement est programmée et on met les règles dans le système. Et donc, le système expert doit pouvoir dire quelles règles il a appliquées à quels faits déjà connus pour découvrir de nouveaux faits.

Marc
8-)

C’est exactement ça ! Un système expert peut justifier ses prédictions en présentant, dans l’ordre, les règles qu’il a utilisées pour y parvenir.

Hilary
(¬_*)

Donc, avec le Deep Learning, on ne sait pas vraiment ce que l’intelligence artificielle a appris. On ne peut savoir qu’elle fait bien ce qu’elle doit faire qu’en observant ce qu’elle fait.

Marc
8-)

Pour cette raison, certains appellent “boîtes noires” les intelligences artificielles conçues avec une approche Deep Learning. En réponse à cette incapacité de justification des décisions, un domaine de recherche est né qui a pour objet de trouver des méthodes qui permettent d’expliquer les décisions de ces intelligences artificielles.

Hilary, Astou & Driss
(¬_¬)

Mehdi
(¬_¬)

Je change un peu de sujet… Andrew Ng, quand il a dit que le Deep Learning est un super-pouvoir, il a parlé de créations artistiques. On peut vraiment faire ça ?

Marc
8-)

Eh bien, figure-toi qu’en 2018, un tableau représentant un portrait entièrement réalisé par une intelligence artificielle, conçue par le collectif parisien Obvious, a été vendu à plus de 400 000 dollars par la société de vente aux enchères Christie’s !

Astou, Hilary, Mehdi & Driss
(O_o)

Marc
8-)

L’année suivante, en 2019, l’artiste Mario Klingemann a utilisé l’intelligence artificielle comme vecteur de remise en question des processus de création traditionnels. Son œuvre, Memories of Passersby I, est une installation constituée notamment d’une intelligence artificielle qui génère, de façon autonome et continue et sans jamais se répéter, des portraits artistiques de personnes qui n’existent pas.

La plateforme Onkaos, qui apporte son support aux projets artistiques qui font appel à l’intelligence artificielle, la réalité virtuelle ou l’art vidéo, célèbre l’œuvre qui “présente de troublantes représentations du visage humain, des exemples générés par une Intelligence Artificielle de ce qu’André Breton appelait ‘beauté convulsive’.

Astou, Hilary, Mehdi & Driss
(o_O)

Marc
8-)

Cette œuvre a été vendue à 40 000 livres sterling par la société de vente aux enchères Sotheby’s.

Mehdi
(¬_¬)

Mais comment on fabrique ce genre d’intelligences artificielles ? Avec le Deep Learning, aussi ?

Marc
8-)

Oui, avec une approche Deep Learning.

Ces œuvres sont, en fait, le résultat de la collaboration de deux intelligences artificielles. À la première, appelée Discriminatrice, on apprend, au préalable, à reconnaître un certain type d’œuvres d’art. Pour la création du portrait qui résulte des travaux du collectif Obvious, on a appris à cette intelligence artificielle à reconnaître les peintures de portraits réalisées entre le 14ème et le 20ème siècle. Elle identifie ainsi les motifs récurrents et spécifiques à ce type de peintures. Une fois le Discriminateur au point, la seconde intelligence artificielle, la Génératrice, entre en jeu. Elle va tenter de créer une image que la Discriminatrice pourrait reconnaître comme étant une peinture de portrait. La Génératrice crée donc une première image, puis la soumet au jugement de la Discriminatrice. Si cette dernière juge que l’image n’est pas un portrait, alors la Génératrice recommence en prenant en compte les différences relevées par la Discriminatrice entre les caractéristiques de l’image qui lui a été présentée et celles des images qu’elle considère être des portraits.

Astou
(¬_¬)

Donc, la Génératrice fait plusieurs essais-erreurs avant d’arriver à un résultat qui passe le test de la Discriminatrice…

Hilary
(¬_¬)

On dirait un peu que la Discriminatrice est une prof qui dirait à une élève, la Génératrice, que son résultat n’est pas bon en donnant des indications pour que l’élève puisse trouver la bonne réponse.

Marc
8-)

C’est tout à fait ça !

Driss
(¬_¬)

Et, comment on s’est dit qu’une intelligence artificielle pourrait apprendre ? Parce que c’est juste un programme informatique et, même si on le construit en s’inspirant du cerveau, c’est loin d’être un vrai cerveau.

Marc
8-)

Selon Yoshua Bengio, l’une des figures de proue du Deep Learning, l’idée même de reproduction du raisonnement humain par un processus informatique repose sur deux hypothèses fondamentales.

La première hypothèse concerne la possibilité même de la création d’une intelligence artificielle. Elle dit que le principe d’émergence de l’intelligence peut être décrit par une fonction mathématique calculable, de façon similaire aux lois de la physique. Notre intelligence, grâce à laquelle nous construisons une représentation du monde à travers l’expérience de la réalité, reposerait sur des mécanismes d’apprentissage généraux modélisables sous forme mathématique. Si ils peuvent ainsi être modélisés, alors ils sont implémentables sous forme de programme informatique.

Mehdi
(¬_¬)

C’est une hypothèse… Mais est-ce que ça marche vraiment comme ça ?

Marc
8-)

On ne le sait pas encore de façon certaine.

On peut faire remonter la source de cette hypothèse au philosophe Thomas Hobbes qui, dans son livre Léviathan, écrit : “Car la RAISON, en ce sens, n’est rien d’autre que le fait de calculer (c’est-à-dire additionner et soustraire) les consécutions des dénominations générales admises pour marquer et signifier nos pensées.

Beaucoup plus récemment, Jeff Hawkins et son équipe de chercheurs ont réalisé des travaux qui ont débouché sur une nouvelle théorie à propos du fonctionnement de l’intelligence humaine. Cette thèse fait l’objet du livre A Thousand Brains: A New Theory of Intelligence. Elle vient considérablement renforcer le crédit qu’on peut accorder à l’hypothèse avancée par Yoshua Bengio.

Le Deep Learning s’inscrit ainsi dans le courant de pensée connexionniste qui dit que les phénomènes mentaux et comportementaux peuvent être décrits par des réseaux constitués d’unités de traitement simples interconnectées.

Mehdi
(¬_¬)

Par un réseau de neurones, donc.

Marc
8-)

Par un réseau de neurones, en effet.

Yoshua Bengio fait une seconde hypothèse et celle-ci concerne particulièrement le Deep Learning. Cette hypothèse, c’est celle de la compositionnalité dont le principe a été formulé par Gottlob Frege. Elle dit que la signification d’un système complexe est fonction des systèmes plus simples qui le composent et des règles qui permettent de les combiner pour former le système complexe.

Driss
(@_@)

Hé ! Je n’ai toujours pas fait de philo, moi, depuis la dernière fois !

Astou
8-)

En gros, ça veut dire que si tu regardes les composants d’un truc complexe et que tu analyses les règles d’assemblage de ces composants, eh bien ça te permet de comprendre le truc complexe.

Driss
(¬_¬)

Ah d’accord…

Marc
8-)

En gros, c’est ça, oui ! Gottlob Frege, lui, a énoncé son principe à propos de l’analyse des expressions du langage et des expressions mathématiques.

Mehdi
(¬_*)

Ah, mais en décomposant de cette manière, je pourrai mieux comprendre les maths !

Marc
8-)

Très certainement, oui. L’intégralité du livre de Steven Strogatz, Infinite Powers: How Calculus Reveals the Secrets of the Universe, présente le calcul infinitésimal sous cet angle-là. Dès l’introduction, l’auteur conseille : “Pour comprendre une forme, un objet, une trajectoire, un processus ou un phénomène continu — quelque soit son niveau de complexité apparent — réimaginez-le comme une série infinie de parties plus simples, analysez-les, puis combinez les résultats pour comprendre l’objet d’origine.

Driss
(¬_*)

Mais du coup, on peut le faire sur plusieurs niveaux !

Marc
8-)

Que veux-tu dire par là, Driss ?

Driss
(¬_*)

Ben, les composants du truc complexe, ils sont plus simples que lui mais ils peuvent être tout de même assez complexes eux aussi. Et du coup, si on regarde les composants de ces composants et les règles d’assemblage, on peut aussi mieux les comprendre. Et ainsi de suite, jusqu’à arriver à des trucs très simples et faciles à comprendre, et après on remonte chaque étape jusqu’au truc complexe du début, et on comprend tout !

Marc
8-)

C’est tout à fait ça !

Mehdi
=]

Ça me fait penser aux Lego ! Au début, t’assembles des petites pièces entre elles et ça te donne des petits bouts de quelque chose. Ces petits bouts, tu les assembles entre eux et ça te donne des trucs plus compliqués. Et ainsi de suite et, au bout du compte, t’as construit une fusée !

Marc
8-)

Et c’est de cette façon-là que sont conçus bon nombre de réseaux de neurones. Comme le dit Yann Le Cun, pionnier du Deep Learning et aujourd’hui Chief AI Scientist à Facebook, “Ça conduit à imaginer des structures qui sont aussi hiérarchiques, dans lesquelles chaque couche détecte des combinaisons de motifs présents sur la couche précédente. Cette idée de hiérarchie multicouche et de profondeur est donc très naturelle, et on la retrouve dans le cerveau.

Astou
=]

Profondeur ! Voilà pourquoi ça s’appelle Deep Learning !

Driss, Mehdi & Hilary
(¬_*)

Ah ben ouais !

Marc
8-)

Exact ! Et c’est profond à partir du moment où le réseau de neurones est composé d’une ou plusieurs couches entre la couche d’entrée et la couche de sortie.

Astou
(¬_¬)

Comment se fait-il que le succès de l’intelligence artificielle soit si récent, alors que ça existe depuis les années 1950 ? Est-ce que le Deep Learning aurait été inventé récemment ? C’est tellement complexe qu’il est difficile de croire que ça puisse être le cas.

Marc
8-)

L’histoire du Deep Learning est très ancienne à l’échelle de l’histoire de l’informatique. D’une certaine façon, elle précède même l’histoire de l’intelligence artificielle !

La première modélisation d’un processus informatique inspiré d’un réseau de neurones biologique remonte à 1943 ! Elle est due au neurophysiologiste Warren S. McCulloch et au logicien Walter Pitts. Ils ont montré que toute fonction calculable peut être calculée par un réseau de neurones artificielles connectées. Ils ont également suggéré que de tels réseaux de neurones pourraient être capable d’apprendre.

Astou, Hilary, Mehdi & Driss
(o_O)

En 1943 ?

Marc
8-)

Eh oui, c’est si vieux que ça !

Driss
(^_^)

Eh bien, ça fait belle lurette !

Marc
8-)

Ensuite, vous vous souvenez qu’Alan Turing a publié son fameux article Computing Machinery and Intelligence en 1950 ? Et qu’il y traite la question des machines pensantes ?

Astou, Hilary, Mehdi & Driss
=]

Oui !

Mehdi
=]

Même que le terme Intelligence Artificielle a été inventé en 1956 !

Marc
8-)

Tout juste ! Le domaine de recherche en Intelligence Artificielle a été fondé en 1956 par John McCarthy, Marvin Minsky, Allen Newell, Arthur Samuel et Herbert Simon lors d’un séminaire estival qui s’est déroulé au Dartmouth College. C’est John McCarthy qui a proposé le nom de ce domaine.

Ce séminaire s’intitulait The Dartmouth Summer Research Project on Artificial Intelligence. Les travaux de ce groupe de chercheurs se sont basés sur l’idée selon laquelle “Chaque aspect de l’apprentissage ou de toute autre caractéristique de l’intelligence peut être si précisément détaillé qu’une machine pourrait être créée pour simuler ceux-ci.” L’influence des travaux de Warren S. McCulloch et au logicien Walter Pitts transpire de cette énonciation.

Astou
(¬_*)

Ah, mais c’est la même chose que la première hypothèse de Yoshua Bengio !

Marc
8-)

Exactement ! Tous ces chercheurs ont eu une influence considérable sur tous ceux qui les ont suivi. Comme le rapportent Stuart Russell et Peter Norvig : “Ce domaine de recherche sera dominé durant les vingt prochaines années par ces chercheurs, leurs étudiants et leurs collègues du MIT, de MCU, de Stanford et d’IBM.

Hilary
(¬_¬)

Mais l’approche Machine Learning, c’est arrivé bien plus tard, non ?

Marc
8-)

Non ! Dès l’année suivante, en 1957, c’est le psychologue Frank Rosenblatt qui propose le tout premier réseau de neurones capable d’apprendre : le Perceptron. Il publie ses travaux pour la première fois en 1958 dans un article intitulé The perceptron: a probabilistic model for information storage and organization in the brain. Le Perceptron est un réseau très simple : il n’est composé que des couches d’entrée et de sortie, la seconde n’étant constituée que d’un neurone unique. On ne peut pas encore parler de Deep Learning.

Arthur Samuel est un autre pionnier de l’intelligence artificielle. Reconnu pour ses travaux sur le jeu de dames, il est souvent cité pour avoir donné, dit-on, en 1959, la définition suivante de Machine Learning : “Domaine d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmé.

Hilary
(¬_¬)

Ah ? On n’est pas sûr qu’il ait donné cette définition ?

Marc
8-)

Je n’en ai pas trouvé la source. Il est probable qu’il s’agisse plutôt d’une formulation de l’idée générale exprimée dans son article de recherche intitulé Some Studies in Machine Learning using the Game of Checkers.

Mehdi
(¬_*)

Et les premiers travaux basés sur une approche Deep Learning, ils datent de quand ?

Marc
8-)

On peut en trouver la trace à partir de 1965.

C’est l’année au cours de laquelle les premiers travaux dans le domaine du Deep Learning ont été publiés, par Alexeï Grigor’evich Ivakhnenko et Valentin Grigorévich Lapa, dans un article intitulé Cybernetic Predicting Devices.

1986 est une année clé : David E. Rumelhart, Geoffrey E. Hinton et Ronald J. Williams, redécouvrant les travaux de Frank Rosenblatt, publient un article fondamental dans lequel ils démontrent la capacité d’un réseau de neurones à apprendre de ses erreurs par ajustement de ses pondérations synaptiques.

Driss
(¬_*)

Ah oui ! Tu en as parlé un peu plus tôt de ce fonctionnement. Ça remonte donc à si loin…

Marc
8-)

Eh oui ! Un peu plus tôt, en 1980, Kunihiko Fukushima présente le Neocognitron, un réseau de neurones capable de détecter des formes dans des images. Fortement influencé par ces travaux, Yann LeCun, alors aux Laboratoires Bells, et aujourd’hui Chief AI Scientist à Facebook, met au point, une dizaine d’années plus tard, un réseau de neurones pour la lecture de chèques bancaires. De son côté, à peu près à la même période, Yoshua Bengio et son équipe mettent au point un système hybride qui associe réseau de neurones et un modèle statistique. L’une des applications de ce système sera, là aussi, la lecture de chèques bancaires.

Ce ne sont là que quelques exemples…

Astou
(¬_¬)

Et donc, les intelligences artificielles qui sont développées aujourd’hui bénéficient de plusieurs dizaines d’années de recherche !

Marc
8-)

Oui. Près de quatre-vingts ans !

Astou
(¬_¬)

Comment se fait-il, alors, qu’on ait l’impression que c’est vraiment récent ?

Marc
8-)

L’approche Deep Learning est très gourmande en termes de puissance de calcul. Concernant l’apprentissage supervisé, elle est, de plus, très gourmande en données.

Driss
(¬_¬)

Ça veut dire qu’il faut des ordinateurs très puissants ? Et aussi beaucoup beaucoup de données pour réussir à faire apprendre correctement quelque chose à l’intelligence artificielle ?

Marc
8-)

Oui, c’est bien ça. Et, des décennies durant, le Deep Learning s’est heurté à de très fortes limitations sur ces deux points. Elles ont très fortement retardé son développement.

Hilary
(¬_¬)

Que s’est-il passé, alors, pour que, soudain, ça marche très bien et que ça se développe considérablement ?

Marc
8-)

En 2006, Geoffrey E. Hinton et Simon Osindero de l’université de Toronto, ainsi que Yee-Whye Teh, de l’université de Singapour, proposent une évolution algorithmique qui réduit grandement le temps d’apprentissage.

En 2007, Nvidia, fabricant de GPU, met à disposition de la communauté de développeurs informatique un ensemble d’outils, nommé CUDA, ouvrant ainsi la porte en grand à l’utilisation de ces processeurs à des fins autres que l’accélération de l’affichage graphique. Deux ans plus tard, Rajat Raina, Anand Madhavan et Andrew Ng, de l’Université de Stanford, montrent une diminution très importante des temps d’apprentissage avec l’usage d’un GPU par rapport à la même tâche réalisée avec un classique CPU.

Driss
(¬_¬)

CPU, je sais, c’est le processeur de l’ordinateur. Mais GPU, c’est quoi, déjà ?

Hilary
8-)

C’est un processeur spécialisé. Il est très utilisé pour les jeux vidéo 3D.

Marc
8-)

Au début, oui, le GPU était spécialisé dans tous les traitements graphiques. C’est d’ailleurs l’acronyme de Graphics Processing Unit. Et puis son usage s’est étendu à tous les calculs qui peuvent se décomposer en calculs plus simples réalisables en parallèle. Il se prête ainsi très bien aux besoins de l’approche Deep Learning.

Parallèlement à ces améliorations matérielles et algorithmiques, dès 2006, une équipe de chercheurs de Stanford menée par la professeure Fei-Fei Li démarre la construction d’une imposante base de données d’images annotées, nommée ImageNet. Cette base de données, constituée de plus de 14 millions d’images annotées réparties dans plus de 20000 classes, voit le jour en 2009. Elle est librement accessible à tous.

Mehdi
(¬_*)

Ça veut dire que n’importe qui peut l’utiliser gratuitement ?

Marc
8-)

Exactement ! On dit qu’elle est Open Source.

2010 marque la première édition du concours ImageNet, l’ImageNet Large Scale Visual Recognition Challenge. Il voit s’affronter plusieurs équipes de chercheurs pour le meilleur taux d’exactitude de classification d’images. Les progrès sont fulgurants. En 2017, 29 participants sur 38 ont obtenu un taux d’exactitude supérieur à 95%, taux moyen obtenu par un humain !

Astou, Hilary, Mehdi & Driss
(*_*)

Marc
8-)

Et pourtant, à la lecture d’un article du journaliste scientifique Dave Gershgorn pour le magazine Quartz, on apprend que la publication des travaux de l’équipe de Fei-Fei Li qui ont abouti à ImageNet a tout d’abord été accueillie avec force scepticisme. Dix ans plus tard, les auteurs de ces travaux ont reçu le prix PAMI Longuet-Higgins lors de l’édition 2019 de la conférence Computer Vision and Pattern Recognition. Ce prix récompense rétrospectivement les travaux qui ont eu le plus fort impact.

Nombre de réseaux de neurones artificiels construits dans le cadre de cette compétition ont, à leur tour, été mis à la disposition de tous, permettant à chacun de construire de nouveaux réseaux encore plus performants à partir de réseaux qui ont fait leurs preuves.

Mehdi
(¬_*)

C’est vraiment super que les données et les intelligences artificielles soient disponibles gratuitement pour tout le monde ! Comme ça, plein de chercheurs ou d’ingénieurs peuvent essayer de les améliorer !

Marc
8-)

C’est précisément le but !

Astou
(¬_*)

Donc, le Deep Learning a percé grâce à des améliorations matérielles et à des améliorations algorithmiques…

Hilary
(¬_*)

Et grâce aussi à toutes les données qui ont été mises à la disposition de tous en accès libre…

Driss
(¬_*)

Il y a les compétitions aussi !

Mehdi
(¬_*)

Et la mise à disposition gratuite des meilleures intelligences artificielles qui ont participé à ces compétitions !

Marc
8-)

Je crois qu’on tient là les ingrédients de la réussite du Deep Learning !

Il me semble qu’on peut y ajouter l’impact médiatique considérable de la victoire, en 2016, de l’intelligence artificielle AlphaGo sur Lee Sedol, l’un des tous meilleurs joueurs du jeu de go au monde.

Astou
(¬_*)

Ce succès du Deep Learning a-t-il été reconnu dans le monde de la recherche, aussi ?

Marc
8-)

Oui. 2018 est l’année de la consécration pour les fondateurs du Deep Learning : Yoshua Bengio, Geoffrey E. Hinton et Yann LeCun se voient attribuer le prix ACM (Association for Computing Machinery) Alan Turing, considéré comme le Prix Nobel de l’informatique. Il vient récompenser 30 années de recherche menées par ces trois chercheurs, tant avec leurs équipes respectives qu’à travers des collaborations entre eux.

À cette occasion, Cherri Pancake, la présidente de l’ACM, a affirmé : “L’intelligence artificielle est aujourd’hui l’un des domaines scientifiques qui connaît la plus forte progression et qui fait l’objet du plus grand nombre de discussions. Son développement et l’intérêt qu’elle suscite sont dûs, dans une très large mesure, aux avancées récentes du Deep Learning dont Bengio, Hinton et LeCun ont établi les fondations.

Astou, Hilary, Mehdi & Driss
=)

Marc
8-)

Merci, Astou, pour ta question.

Astou
=]

Mehdi
(*_*)

J’en ai une pour la prochaine fois ! Je peux ? Parce qu’il y a quelque chose qui m’inquiète un peu, j’avoue…

Marc
8-)

Bien sûr, Mehdi !

Mehdi
(¬_¬)

Je réfléchis à la formulation…

Marc
8-)

Prends le temps nécessaire.

Mehdi
=)

Ah, voilà !

J’ai tout de même un peu peur, j’avoue : l’obsolescence de mon cerveau n’est-elle pas d’ores et déjà programmée ?

--

--