C’est fait : l’IA de DeepMind a fini par démolir des joueurs pro à Starcraft II

AlphaStar terrasse deux joueurs pro à StarCraft II. Une nouvelle étape… et toujours autant de limites.

C’était écrit : après les dames en 1994, les échecs en 1997, Jeopardy, à peu près tous les jeux vidéo de retrogaming et finalement le jeu de go en 2016, la forteresse StarCraft allait bien finir par tomber. Nous y sommes : trois ans après avoir annoncé ses intentions, DeepMind (qui appartient pour sa part à Alphabet) a remporté son pari : son IA AlphaStar a battu deux pro gamers humains, l’Allemand Dario "TLO" Wünsch et le Polonais Grzegorz "MaNa" Komincz, respectivement classés 44e et 13e joueurs mondiaux à StarCraft II.

Publicité

Le 25 janvier, DeepMind organisait un livestream pour débriefer son exploit et nous diffuser l’intégralité du match, organisé le 8 décembre à Londres. De match il n’y aura guère : AlphaStar écrase Komincs 5 à 0 avant d’enchaîner avec Wünsch 5 à 0 également, sous les yeux de 55 000 streamers. De la même manière que le champion chinois du jeu de go Ke Jie, démoli par AlphaGo en 2016, ne pouvait cacher sa fascination pour les raisonnements de son bourreau, Komincz et Wünsch, interrogés par Wired, se sont montrés impressionnés par l’expertise tactique et la capacité d’adaptation de la machine. Deux ans après ses premières annonces, en novembre 2016, DeepMind est donc arrivé à ses fins. En 2017, Facebook et son IA CherryPi, également lancés dans l’arène StarCraft, avaient dû s’incliner devant le pro gamer Sud-Coréen Song Byung-gu, qui avait démoli quatre IA a lui tout seul.

200 ans d’expérience de jeu en 14 jours

La courbe de progression de ce type d’algorithme, dopé au deep learning et branché sur des bases de données énormes, est impressionnante. Car StarCraft est infiniment plus complexe que le jeu de go, lui-même autrement plus difficile que les échecs. Mathématiquement, détaille Wired, le nombre de positions possible sur une table de go équivaut à 1 puissance 170 ; sur StarCraft, le nombre monte à 1 puissance 270. À partir des 300 actions proposées par le jeu, à n’importe quel instant de la partie, les arborescences de "contre-actions" deviennent incommensurables, et l’IA doit pouvoir toutes les considérer en l’espace d’un instant.

Pour y parvenir, Google a offert à AlphaStar 16 puces spécifiques, appelées TPU (pour Tensor Processing Unit), capables de doper les capacités de calcul de l’algorithme. Equipé de son cerveau tout neuf, le réseau neuronal s’est d’abord entraîné en regardant un demi-million de parties entre joueurs humains (des données anonymisées et fournies par Blizzard), en vue d’apprendre une variété de stratégies. Ses créateurs l’ont ensuite multiplié en cinq versions pour créer une ligue AlphaStar – un processus appelé "apprentissage renforcé". L’objectif : faire émerger des stratégies originales de cette intelligence collective, avant de voir apparaître des "contre-stratégies", etc.

Publicité

Pour complexifier les interactions et enrichir la machine, les ingénieurs aux commandes de la simulation pouvaient également ordonner à chaque agent une tâche spécifique (battre un seul adversaire, gagner en utilisant un seul type d’unité, etc.) et faire émerger des scénarios originaux toujours plus nombreux. Après 14 jours de simulation, chaque agent, jouant des milliers de parties simultanément, avait engrangé près de 200 ans d’expérience de jeu. Dingue ? Oui, à la différence que l’AlphaStar qui a joué contre les pros était loin d’être aussi intelligent…

Une machine imbattable… mais limitée

La démonstration de DeepMind présente en effet un handicap : lors de son match, AlphaStar n’avait plus les super-puces de Google pour l’aider à calculer toutes les possibilités de chaque action, et devait donc réfléchir avec une information limitée – une manière de penser, similaire à un joueur humain. D’autre part, chaque match était joué par une version différente des cinq algorithmes, plus douée sur certaines stratégies que sur d’autres. On pourrait croire que la victoire d’AlphaStar serait en partie due à la rapidité inhumaine des algorithmes, mais non : les données publiées par DeepMind montrent que la machine a joué 280 actions par minute, bien au-dessous des pro gamers. La machine est simplement plus précise.

Cette infernale précision, justement, est l’éternel obstacle à l’hégémonie de l’IA. AlphaStar n’est pas imbattable à StarCraft II : elle reste imbattable sur une carte, lorsqu’elle joue avec une race en particulier (les Protoss), et lorsqu’elle peut observer l’intégralité du plateau de jeu (et incidemment, la stratégie de ses adversaires) en se branchant directement à l’interface du jeu. Après les deux matches officiels, DeepMind a développé une seconde version d’AlphaStar, obligée de choisir à chaque seconde où et quand déplacer son curseur, dans les limites de l’information affichée à l’écran. AlphaStar a perdu avec un score total à 10-1 en faveur de la machine.

Publicité

Mettez AlphaStar aux dames, aux échecs ou à Quake III Arena, et vous n’obtiendrez rien. Tout le problème est là : l’intelligence artificielle étroite et hyperspécialisée n’a aucune chance de devenir une intelligence dite générale, capable de développer des formalismes à partir de petits volumes d’information et de faire preuve d’adaptabilité. S’il ne fait aucun doute que les équipes de DeepMind ont accompli d’importantes percées dans la planification à long terme, la gestion d’actions en temps réel, la coordination de nombreux éléments et la vision stratégique, AlphaStar n’est toujours pas une machine imbattable aux jeux vidéo. Si l’intelligence est un privilège humain, l’infaillibilité est définitivement une caractéristique robotique.

Par Thibault Prévost, publié le 29/01/2019

Pour vous :