AlphaGo Zero : s’affranchir de la connaissance humaine pour se généraliser.

Arthur Irrmann
Stéphane Grumbach
Published in
5 min readNov 7, 2017

DeepMind, la filiale de Google dédiée à l’intelligence artificielle, refait aujourd’hui parler d’elle avec une nouvelle version autodidacte de sa fameuse IA dédiée au jeu de Go.

AlphaGo Zero : l’intelligence artificielle autodidacte de DeepMind. Crédits : DeepMind

Le 18 octobre 2017, DeepMind publiait un article dans la célèbre revue Nature : “Mastering the game of Go without human knowledge”.

La filiale spécialisée dans l’intelligence artificielle d’Alphabet, maison mère de Google, y présente la dernière version d’AlphaGo, baptisée AlphaGo Zero et annoncée comme meilleur joueur de Go au monde.

La blessure narcissique infligée par AlphaGo

En 1997, il y a déjà 20 ans, l’ordinateur DeepBlue d’IBM battait Garry Kasparov au jeu d’échecs. Le jeu de Go, lui, est resté longtemps inaccessible pour les algorithmes.

Ce jeu inventé en Chine il y a près de 3000 ans est réputé comme l’un des plus complexes au monde : il doit sa réputation à une combinatoire qui dépasse de très loin les capacités de calcul d’un ordinateur. Dû à son damier (goban) étendu, il y a plus de combinaisons possibles au jeu de Go qu’il n’y a d’atomes dans l’univers observable. Il est donc impossible pour un ordinateur d’envisager la méthode de recherche exhaustive ou brute force utilisée par DeepBlue qui calcula toutes les solutions possibles avec plusieurs coups d’avance dans son duel qui l’opposa au champion Russe.

Il faut attendre 2006 et le développement de nouvelles méthodes de programmation probabilistes comme la méthode de Monte-Carlo pour que la machine fasse preuve d’intuition et emprunte des raccourcis pour enfin se confronter à des joueurs de haut niveau sans toutefois les égaler.

En 2015, DeepMind présente AlphaGo, un algorithme basé sur la méthode de Monte-Carlo qui utilise un double réseau de neurones profond ou deep learning.

Nourri de dizaines de milliers de parties menées par des joueurs professionnels, AlphaGo a d’abord été conçu pour imiter le jeu humain. Après avoir atteint un haut niveau, il s’entraîna contre lui-même pour progresser via une méthode dite d’apprentissage par renforcement ou reinforcement learning.

Après des millions de parties jouées, AlphaGo va supplanter le jeu humain. En mars 2016, AlphaGo affronte le champion Lee Sedol (9e Dan) et gagne 4–1, puis 1 an plus tard, AlphaGo master bat le numéro 1 mondial Ke Jie.

AlphaGo Zero : “tabula rasa”

Alors qu’AlphaGo s’est officiellement retiré de toute compétition suite à ses victoires face au numéro 1 mondial en mai 2017, DeepMind souhaite simplifier son algorithme avec AlphaGo Zero.

Zero pour 0 donnée. En effet, AlphaGo Zero utilise une architecture allégée qui ne repose plus sur deux mais un seul réseau de neurones profond. À la différence des précédentes versions qui devaient être alimentées par des parties jouées par des humains pour initier leur apprentissage, AlphaGo Zero se base uniquement sur la technique d’apprentissage par renforcement pour évoluer : il est autodidacte.

En partant d’une page blanche, AlphaGo Zero a seulement besoin de connaître les règles de base du jeu et la position des pierres blanches et noires sur le goban. Il s’exerce alors contre lui-même pour progresser, d’abord de manière aléatoire, pour identifier les meilleurs coups et développer ses stratégies gagnantes.

Il ne lui a fallu que 3 jours (4,9 millions de parties) pour dominer AlphaGo Lee en gagnant 100 victoires à 0. En 21 jours, il bat AlphaGo master et en 40 jours, AlphaGo Zero surpasse toutes les versions actuelles d’AlphaGo et devient le meilleur joueur de Go au monde. AlphaGo a trouvé son maître. Lui-même !

D’une page blanche, AlphaGo Zero n’aura mis que 40 jours pour devenir le meilleur joueur de Go au monde. Crédits : DeepMind

Simplifier pour généraliser

Les IA basées sur la méthode d’autoapprentissage “classique” ou Deep Learning dépendent aujourd’hui principalement de la qualité de la donnée initiale qui leur est fournie. L’enjeu ne réside pas dans la complexité de l’algorithme, mais plutôt dans la récolte et la sélection des bonnes informations (ou input) pour garantir un apprentissage de qualité et les réponses (ou output) attendues.

En simplifiant l’algorithme à un seul réseau neuronal basé uniquement sur la méthode d’apprentissage par renforcement, l’IA n’a plus besoin de nos données pour trouver beaucoup plus rapidement de nouvelles stratégies et possibilités par itérations successives.

Une page blanche c’est toujours un bon début.

« Cette technique est plus puissante que les précédentes versions d’AlphaGo car elle n’est plus contrainte par les limites de la connaissance humaine, expliquent ses créateurs. À la place, elle est capable d’apprendre à partir de zéro avec le meilleur joueur du monde : AlphaGo lui-même. »

AlphaGo Zero a impressionné ses développeurs en faisant preuve de créativité : après avoir rapidement égalé le jeu humain élaboré depuis plusieurs milliers d’années, AlphaGo Zero est allé encore plus loin pour découvrir des stratégies inédites en quelques jours. Les joueurs professionnels s’inspirent de nouveaux mouvements introduits par AlphaGo Zero sans pour l’instant en saisir tout leur sens.

Le développement d’AlphaGo Zero et la création d’un algorithme simplifié autoapprenant sans données initiales ouvrent une voie prometteuse à la généralisation de ce type d’outils dans des domaines variés tels que la santé, les problématiques liées à l’environnement, à la réduction de la consommation d’énergie, la mobilité de demain, etc.

« Vous obtenez un algorithme qui devient si généraliste qu’il peut être appliqué n’importe où », estime David Silver, chercheur en chef sur AlphaGo.

Les chercheurs de DeepMind mettent en exergue l’intérêt d’une telle agilité dans des secteurs comme la biologie de synthèse ou la conception de nouveaux matériaux.

DeepMind a signé plusieurs partenariats avec des hôpitaux londoniens dans la lutte contre le cancer pour aider à cartographier les zones cancéreuses à traiter, et permettre le développement d’une application pour aider le personnel hospitalier à détecter plus efficacement les cas d’insuffisance rénale aiguë.

Se passer de données humaines ne signifie pas partir de n’importe où pour évoluer n’importe comment. AlphaGo Zero a progressé au sein d’un cadre structuré avec des règles établies. Le jeu offre un environnement contrôlé et borné idéal pour tester ces nouvelles intelligences. Nous sommes encore loin d’une IA forte incontrôlable qui prendrait le contrôle de ses créateurs. Nous devons d’abord nous demander à qui cela peut être bénéfique alors que demain, toute cette puissance devra se confronter aux problèmes extrêmement complexes de notre monde, cette fois bien réel ; le prochain challenge à relever pour le logiciel de DeepMind.

Crédits: DeepMind

--

--