Crédit: Dota

Une équipe d’algorithmes a battu des humains au jeu de stratégie Dota 2

Grâce à l’apprentissage par renforcement, cinq machines d’OpenAI ont battu des humains au jeu Dota 2. En jouant l’équivalent de 180 ans… par jour.

Après le jeu d’échecs, le jeu de go, Jeopardy!, le poker en ligne et une incursion foireuse du côté de StarCraft, les machines sont en passe de franchir une nouvelle étape vers l’hégémonie absolue dans le domaine des jeux de stratégie. Le 25 juin, OpenAI, le laboratoire de recherche en intelligence artificielle fondé par Elon Musk et Sam Altman, a annoncé avoir mis au point une équipe de cinq machines capables de battre les meilleurs joueurs amateurs au jeu vidéo de stratégie en temps réel Dota 2.

Publicité

Techniquement, c’est déjà la seconde fois que les équipes d’OpenAI annoncent leur victoire sur cette plateforme : en août dernier, une de leurs machines s’était déjà frottée à un joueur de Dota 2 – professionnel, celui-là –, Danil Ishutin, et l’avait rossé trois fois avant de l’obliger à jeter l’éponge, le tout devant témoins.

Sur Twitter, Musk s’était alors promptement félicité du résultat, revendiquant la première victoire d’une IA sur "le meilleur joueur du monde dans une compétition d’e-sports. Bien plus complexe que les jeux de plateau traditionnels comme les échecs et le go".

Une déclaration présomptueuse aux yeux des experts de la discipline, qui rappelaient que la complexité de Dota 2 réside avant tout dans la capacité de coopération entre joueurs. En d’autres termes, jouer à Dota 2 en 1 contre 1 ne représente qu’une fraction de la difficulté réelle du jeu.

Publicité

Musk et OpenAI avaient alors promis de revenir l’année suivante avec une équipe de machines capable de jouer – et de gagner — dans la discipline reine du 5 contre 5. C’est désormais chose faite – 5 match, 4 victoires et un nul — et c’est autrement plus impressionnant.

20 000 variables à chaque instant du jeu

Pris dans un contexte de match en équipe, Dota 2 se révèle effectivement bien plus complexe que les échecs ou le go. Contrairement aux jeux de plateau, le jeu vidéo cache une partie du terrain aux joueurs, ce qui empêche les machines d’anticiper les mouvements des adversaires.

À 5 contre 5, les joueurs peuvent choisir entre plus d’une centaine de personnages, chacun possédant ses propres caractéristiques, et chacun des joueurs peut être équipé d’objets spécifiques qui peuvent changer le cours de la partie s’ils sont déployés au bon moment.

Publicité

Le nombre de variables est tellement élevé qu’il est donc impossible de programmer des stratégies à l’avance dans les machines : selon OpenAI, les bots doivent choisir parmi 1 000 actions différentes en prenant en compte 20 000 variables à chaque instant du jeu. Elles sont donc obligées de s’adapter en permanence aux événements.

C’est là qu’intervient l’apprentissage par renforcement. Avec cette technique, relativement simple en théorie, les machines se perfectionnent dans une simulation en s’affrontant entre elles, sans rien connaître au jeu au départ. La seule orientation donnée aux machines par les programmeurs prend la forme de points de récompense offerts lorsqu’un ennemi est tué, histoire de leur faire comprendre le but du jeu.

Une fois les paramètres mis en place, les développeurs laissent les machines s’entre-tuer dans leur salle d’entraînement virtuelle, dans un espace-temps accéléré, jusqu’à ce qu’elles développent des stratégies complexes. Un peu comme la salle de l’esprit et du temps de Dragon Ball Z, ou le Berceau de Westworld.

Publicité

3 500 ans de parties en 19 jours

Dans cette simulation, les machines d’OpenAI ont joué l’équivalent de 180 ans de parties… chaque jour. Pendant 19 jours. Soit 3 500 ans de parties. "Elles commencent de manière aléatoire, en se baladant dans la carte, explique Greg Brockman, responsable technique chez OpenAI, à The VergeAprès quelques heures, elles ont acquis des capacités basiques."

Selon lui, un être humain accumule entre 12 000 et 20 000 heures de jeu pour devenir professionnel. En partant de ce chiffre, cela signifie que les bots d’OpenAI peuvent acquérir "l’équivalent de 1 000 vies d’expérience chaque jour". Angoissant ? Pas vraiment.

Car si, d’un côté, la méthode d’apprentissage offre aux machines un avantage compétitif extraordinaire par rapport à nos pauvres cerveaux mortels, au fond, ces résultats montrent aussi que l’état de l’art de l’IA est encore à des années-lumière de la capacité de réflexion de l’être humain.

On touche ici au problème fondamental de l’apprentissage algorithmique : peu importe la méthode utilisée, il est encore très difficile, voire impossible, d’apprendre à une machine à raisonner de manière logique – en d’autres termes, à appliquer les connaissances acquises dans un champ spécifique à un autre totalement différent.

D’autre part, rappelle The Verge, les machines d’OpenAI ont joué à une version simplifiée du jeu, qui met volontairement de côté quelques variables essentielles du très haut niveau, comme l’invisibilité.

Lorsqu’un joueur humain s’attaque à Dota 2 pour la première fois, il comprendra très rapidement que le jeu obéit, par exemple, aux lois de la physique, et que le gameplay se rapproche d’autres jeux de réflexion. Instinctivement, et presque instantanément, il saura à peu près définir les limites de ce que le jeu lui permet.

La machine en est encore totalement incapable. En contrepartie, la machine possède une vitesse de calcul phénoménale, une mémoire surhumaine, ne rate jamais un mouvement, ne met jamais de chips sur son clavier et maîtrise simultanément une grande variété de paramètres (distance entre les personnages, capacités des objets, niveaux de vie des équipiers, etc.). Chacun ses armes.

Prochaine étape : les joueurs professionnels

Si les limites de la méthode ne doivent pas être oubliées, la performance représente néanmoins un sacré bond pour le développement des systèmes autonomes. Sachant qu’une partie de Dota dure environ 45 minutes, les bots d’OpenAI ont dû apprendre à planifier leurs actions à long terme, chose qui semblait jusque-là impossible via l’apprentissage par renforcement. Selon Brockman, la solution au problème était finalement simple : mettre plus de puissance de calcul à disposition des algorithmes.

Et les bénéfices de cette avancée dépassent de loin le cadre du jeu vidéo compétitif : des algorithmes capables de travailler en coopération pour mettre en place des stratégies à long terme ont le potentiel pour révolutionner une grande variété de domaines dans la recherche, l’industrie ou l’armée. Prochaine étape : se mesurer aux joueurs professionnels, avec les règles officielles, au tournoi The International, du 20 au 25 août prochain. La route vers la victoire finale est encore longue.

Par Thibault Prévost, publié le 26/06/2018

Copié

Pour vous :