La nouvelle Performance d’AlphaGo est DINGUE

Vincent Pinte Deregnaucourt
5 min readOct 20, 2017

--

Maintenant, il crée de la connaissance ex nihilo. Et ce que cela augure est profond.

Il vient de se passer un truc dont j’ai l’impression qu’on en parle peu mais qui à mon sens est une vraie nouveauté qui va changer le cours des choses. On ne vient pas seulement d’améliorer l’existant. On a changé de dimension.

C’est quoi le Go ?

Le jeu de go est un jeu qui n’est pas difficile en soi en terme de règles : il faut gagner en un contre un, en plaçant des pions sur un plateau (intersection des lignes) de façon à délimiter des zones de l’adversaire plus vite que lui (et donc en plus grand nombre à la fin).

Pourquoi c’est difficile ?

C’est un jeu où la force brute ne fonctionne pas pour une raison évidente : à chaque coup, vous avez 200 ou 300 possibilités. Ce qui fait que si vous voulez évaluer la situation en prenant en compte toutes les hypothèses de jeu 10 coups à l’avance (et encore, c’est peu !), vous avez 250²⁰ possibilités, c’est à dire des centaines de milliards de milliards d’années de calculs à faire, même au rythme de plusieurs millions d’évaluations par seconde.

AlphaGo, début 2016

La première version d’alphaGo a été en soi une petite révolution : c’est l’avant dernier jeu compliqué où la machine était toujours battue (le dernier étant le poker où la machine sait désormais faire mieux en 1 contre 1 mais pas à une table de 10).

Du jour au lendemain (premier semestre 2016), alpha Go a battu à plat de couture le joueur le plus doué du monde puis le champion du monde. Puis vint une version (Master) qui en décembre 2016 a écrasé en jouant anonymement contre l’ensemble des 60 ( !! ) meilleurs joueurs du monde, sans une seule défaite. Ces résultats sont déjà en soi époustouflants, les connaisseurs à la fois des mathématiques, de l’informatiques et du Go ne s’attendaient clairement pas à un résultat de la sorte avant 2030 !

Le principe d’alphaGo est de regarder comment les humains jouent et de répliquer des patterns en les améliorant localement. C’est l’apprentissage.

Si on voulait prendre une analogie avec une voiture sur un circuit, on rentrerait dans l’application les trajectoire des voitures qui feraient un bon temps au tour et la machine, essaierait d’améliorer le temps au tour en améliorant chaque trajectoire dans chaque virage.

AlphaGo ZERO

Dans cette nouvelle version d’alphaGo, (“AlphaGo ZERO”), c’est une nouvelle stratégie qui est mise en oeuvre : on donne simplement les règles de jeu, les conditions de la victoire et le programme s’entraine contre lui même. En faisant cela, il ne stocke pas ou n’utilise pas de connaissance préalable ou encore ne l’analyse pas : il la crée ex nihilo. Pour reprendre l’analogie avec le circuit, la machine n’aurait initialement comme connaissance que les notions d’accélération et freinage, ainsi que le volant qui permet de tourner. Ensuite on lui donne une règle : rester sur le circuit (ne pas couper dans l’herbe…). Et un objectif : minimiser le temps au tour. Cela nécessite donc que la machine invente elle même la notion de trajectoire.

Par ailleurs, là où l’intelligence était distribuée dans plusieurs systèmes (un réseau de neurones pour gérer le coup à jouer, un autre pour évaluer la position, un autre pour prédire le vainqueur probable etc..), actuellement, tout absolument tout est dans un seul réseau de neurones qui agit par renforcement, une technique qui date des année 1990 (alphaGo s’apprend lui même à jouer et au fur et à mesure que son niveau monte, il s’apprend de mieux en mieux : un peu comme si vous tourniez sur un circuit avec une voiture et qu’au fur et à mesure que vous même appreniez à dompter le circuit, la voiture s’améliorait également)

Des résultats dantesques !

Et les résultats sont tout à fait étourdissants, démentiels, à peine croyables, et je pèse mes mots : si alphaGo avait dû travailler à l’analyse de centaines de milliers de parties, sur d’innombrables processeurs, pendant plusieurs mois, la nouvelle version a atteint le niveau d’un débutant en 3 heures, le niveau d’alphaGo initial en 3 jours, et le niveau de AlphaGo Master en 21 jours. Et si la version d’alphaGo tournait sur 48 processeurs dans lesquels sont physiquement gravés les algorithmes d’intelligence artificielle (TPU), il n’en faut plus que … 4 pour AlphaGo ZERO.
Après juste 3 jours, le AlphaGo qui avait battu le 18 fois champion du monde Lee Sedol, a été battu 100 à 0 par cette nouvelle version.

CENT À ZERO.

Les calculs ELO (qui sont une sorte d’indicateur absolu de niveau de jeu) semble indiquer qu’aujourd’hui, alphaGo ZERO (5185 !) est infiniment fois plus fort qu’une version qui elle même serait infiniment fois plus forte que Lee Sedol (3526). Par comparaison, les meilleurs logiciels d’échecs (qui battent les humains depuis 1990 - Kasparov - Deep Blue) sont aujourd’hui seulement une fois infiniment fois plus forts.

Ce qui change fondamentalement

Il faut bien comprendre que ce qui change, c’est que le logiciel (programmé par des humains), a intégralement créé la connaissance qui lui sert. Et ça, c’est un changement de paradigme complet : on ne crée pas de la connaissance à partir de connaissance mais on créé la connaissance à partir de rien. (C’est à dire qu’on ne déduit pas des jeux précédents les stratégies à mener mais on crée des stratégies ex nihilo en n’ayant pour seule connaissance les règles, c’est à dire ce qui est autorisé ou ce qui ne l’est pas).

Et non seulement on y arrive, mais les résultats sont là.

Ainsi, le jeu de Go, qui est un jeu exceptionnellement difficile à modéliser du fait du volume de situations à analyser, est désormais “intégralement résolu” en quelques jours, alors que les meilleurs humains d’hier bénéficiaient de 2700 ans de savoir.

Demain

Un peu de science fiction : imaginez maintenant que nous remplacions le Go par l’Homme. Et les règles du Go par nos règles : lois Physiques, Droit, conventions sociales, …

Alors ?

Annexes / Liens

le jeu de Go (wikipédia)

Lien vers le classement ELO des joueurs de Go

lien vers le classement ELO (d’un point de vue de la Mathématique) (wikipedia)

AlphaGo (wikipédia)

Publication AlphaGo ZERO par DeepMind officielle

La publication dans la prestigieuse revue “Nature”

--

--

Vincent Pinte Deregnaucourt

Ingénieur, Mathématicien, Consultant, Professeur, Startuper et Conférencier (bientôt essayiste)