Intelligence artificielle : la nouvelle Performance d’AlphaGo est dingue !

HAL9000 by RV1864 on flickr - CC BY-ND 2.0

Le jeu de Go, un jeu exceptionnellement difficile, est désormais « intégralement résolu » en quelques jours par un logiciel qui a créé la connaissance qui lui sert.

Par Vincent Pinte Deregnaucourt.

Il vient de se passer un truc dont on parle peu, j’ai l’impression, mais qui à mon sens est une vraie nouveauté qui va changer le cours des choses. On ne vient pas seulement d’améliorer l’existant. On a changé de dimension.

C’est quoi le Go ?

Le jeu de go est un jeu qui n’est pas difficile en soi en termes de règles : il faut gagner en un contre un, en plaçant des pions sur un plateau (intersection des lignes) de façon à délimiter des zones de l’adversaire plus vite que lui (et donc en plus grand nombre à la fin).

Pourquoi est-ce difficile ?

C’est un jeu où la force brute ne fonctionne pas pour une raison évidente : à chaque coup, vous avez 200 ou 300 possibilités. Ce qui fait que si vous voulez évaluer la situation en prenant en compte toutes les hypothèses de jeu 10 coups à l’avance (et encore, c’est peu !), vous avez 250²⁰ possibilités, c’est-à-dire des centaines de milliards de milliards d’années de calculs à faire, même au rythme de plusieurs millions d’évaluations par seconde.

AlphaGo, début 2016

La première version d’AlphaGo a été en soi une petite révolution : c’est l’avant dernier jeu compliqué où la machine était toujours battue (le dernier étant le poker où la machine sait désormais faire mieux en 1 contre 1 mais pas à une table de 10).

Du jour au lendemain, au premier semestre 2016, AlphaGo a battu à plate couture le joueur le plus doué du monde puis le champion du monde. Puis vint une version (Master) qui, en décembre 2016, a écrasé en jouant anonymement contre l’ensemble des 60 (!!) meilleurs joueurs du monde, sans une seule défaite. Ces résultats sont déjà en soi époustouflants, les connaisseurs à la fois des mathématiques, de l’informatique et du Go ne s’attendaient clairement pas à un résultat de la sorte avant 2030 !

Le principe d’AlphaGo est d’observer comment les humains jouent et de répliquer des patterns en les améliorant localement. C’est l’apprentissage.

Si on voulait prendre une analogie avec une voiture sur un circuit, on entrerait dans l’application les trajectoires des voitures qui feraient un bon temps au tour, et la machine essaierait d’améliorer le temps au tour en améliorant chaque trajectoire dans chaque virage.

AlphaGo ZERO

Dans cette nouvelle version d’AlphaGo, (« AlphaGo ZERO »), c’est une nouvelle stratégie qui est mise en œuvre : on donne simplement les règles de jeu, les conditions de la victoire et le programme s’entraîne contre lui-même. En faisant cela, il ne stocke pas ou n’utilise pas de connaissances préalables ou encore ne l’analyse pas : il la crée ex nihilo.

Pour reprendre l’analogie avec le circuit, la machine n’aurait initialement comme connaissance que les notions d’accélération et freinage, ainsi que le volant qui permet de tourner.

Ensuite on lui donne une règle : rester sur le circuit (ne pas couper dans l’herbe…). Et un objectif : minimiser le temps au tour. Cela nécessite donc que la machine invente elle-même la notion de trajectoire.

Par ailleurs, là où l’intelligence était distribuée dans plusieurs systèmes (un réseau de neurones pour gérer le coup à jouer, un autre pour évaluer la position, un autre pour prédire le vainqueur probable etc.), actuellement, tout absolument tout est dans un seul réseau de neurones qui agit par renforcement, une technique qui date des année 1990.

AlphaGo apprend lui-même à jouer et au fur et à mesure que son niveau monte, il apprend de mieux en mieux : un peu comme si vous tourniez sur un circuit avec une voiture et qu’au fur et à mesure que vous-même appreniez à dompter le circuit, la voiture s’améliorait également.

Des résultats dantesques !

Et les résultats sont tout à fait étourdissants, démentiels, à peine croyables, et je pèse mes mots : si AlphaGo avait dû travailler à l’analyse de centaines de milliers de parties, sur d’innombrables processeurs, pendant plusieurs mois, la nouvelle version a atteint le niveau d’un débutant en 3 heures, le niveau d’AlphaGo initial en 3 jours, et le niveau de AlphaGo Master en 21 jours. Et si la version d’AlphaGo tournait sur 48 processeurs dans lesquels sont physiquement gravés les algorithmes d’intelligence artificielle (TPU), il n’en faut plus que… 4 pour AlphaGo ZERO.

Après juste 3 jours, l’alphaGo qui avait battu Lee Sedol, 18 fois champion du monde, a été battu 100 à 0 par cette nouvelle version.

CENT À ZÉRO !

Les calculs ELO (qui sont une sorte d’indicateur absolu de niveau de jeu) semblent indiquer qu’aujourd’hui, alphaGo ZERO (5185 !) est infiniment de fois plus fort qu’une version qui elle-même était infiniment de fois plus forte que Lee Sedol (3526). Par comparaison, les meilleurs logiciels d’échecs (qui battent les humains depuis 1990 – Kasparov – Deep Blue) sont aujourd’hui seulement une fois infiniment fois plus forts.

Ce qui change fondamentalement

Il faut bien comprendre que ce qui change c’est que le logiciel (programmé par des humains) a intégralement créé la connaissance qui lui sert. Et ça, c’est un changement de paradigme complet : on ne crée pas de la connaissance à partir de connaissances mais on crée la connaissance à partir de rien. C’est-à-dire qu’on ne déduit pas des jeux précédents les stratégies à mener mais on crée des stratégies ex nihilo en ayant les règles pour seule connaissance, c’est-à-dire ce qui est autorisé, ou ce qui ne l’est pas.

Et non seulement on y arrive, mais les résultats sont là.

Ainsi, le jeu de Go, qui est un jeu exceptionnellement difficile à modéliser du fait du volume de situations à analyser, est désormais « intégralement résolu » en quelques jours, alors que les meilleurs humains d’hier bénéficiaient de 2700 ans de savoir.

Demain

Un peu de science fiction : imaginez maintenant que nous remplacions le Go par l’Homme. Et les règles du Go par nos règles : lois Physiques, Droit, conventions sociales…
Alors ?


Liens :

—-
Article initialement paru sur Medium et reproduit avec la permission de l’auteur.