Maluuba, l’IA de Microsoft, a atteint le score maximal de Ms. Pac-Man

Maluuba, l’IA de Microsoft, a atteint le score maximal de Ms. Pac-Man

photo de profil

Par Thibault Prévost

Publié le

L’intelligence artificielle Maluuba, rachetée par Microsoft, a réalisé un score de 999 990 points au jeu Ms. Pac-Man, ce qu’aucun humain n’a jamais réalisé.

À voir aussi sur Konbini

Il va falloir s’y habituer : les machines vont grignoter nos records les uns après les autres. Après les échecs, les dames et plus récemment le go, l’IA compte désormais s’attaquer aux jeux vidéo. Ne cherchez plus, le meilleur joueur de Ms. Pac-Man au monde s’appelle Maluuba. Cette intelligence artificielle développée par une start-up canadienne, acquise par Microsoft en janvier dernier, vient en effet d’atteindre le score parfait de 999 990 points. Le deuxième meilleur score de tous les temps, réalisé en 2015 par un être humain donc, est de 933 580 points.
Car si les IA, guidées par des équipes d’ingénieurs baignés dans la culture vidéoludique depuis leur âge le plus tendre, se sont très tôt attaquées aux jeux vidéo pour rôder leurs mécanismes de machine learning – à l’instar de Google DeepMind, qui a vaincu 49 jeux Atari d’un coup en 2015, en utilisant une technique dite “d’apprentissage renforcé” –, Ms. Pac Man est néanmoins une autre paire de manches.
Le deuxième épisode de la franchise culte, sorti en 1981 sur Atari 2600, présente un véritable défi pour tout joueur qui ose balancer un jeton dans la machine car, à la différence de l’original, les mouvements des fantômes dans le labyrinthe sont entièrement aléatoires. Résultat : même une IA ne peut composer avec autant d’états superposés – selon le papier, il y en aurait 10 puissance 77. Le jeu est si difficile que ses concepteurs n’avaient pas prévu la possibilité d’un score à sept chiffres, bloquant la barre à 999 990.

800 millions de situations de jeu étudiées par l’IA

Pour parvenir à dominer le jeu, les développeurs derrière Maluuba ont utilisé une nouvelle méthode appelée “architecture de récompense hybride”, que l’on peut résumer par l’aphorisme guerrier “diviser pour mieux régner”. Plutôt que d’essayer d’analyser toutes les variables d’un seul coup, l’IA s’est divisée en “agents”, chacun assigné à une tâche spécifique. Une fois la décomposition du problème terminée, elle a fait intervenir plus de 150 agents simultanément – un pour chaque emplacement de fruits, quatre pour anticiper les déplacements des fantômes, quatre pour les fantômes “comestibles”, etc. Couplée à une méthode traditionnelle d’apprentissage par renforcement, qui affecte un retour positif à chaque réussite et un retour négatif à chaque échec, l’approche a fini par atteindre son objectif en terrassant un jeu théoriquement impossible à dominer. Il aura néanmoins fallu 800 millions de situations de jeu à l’IA avant d’y parvenir. Une sacrée dose de patience, à l’échelle humaine.
En substance, l’IA a fonctionné comme une entreprise, en subdivisant les tâches à des agents ou des groupes d’agents spécialisés selon le principe de la chaîne de production tayloriste. Prometteur… mais finalement assez anecdotique, comme le détaille The Register : en effet, Maluuba n’a pas appris “toute seule” que les fantômes étaient l’ennemi, que certains d’entre eux pouvaient être gobés dans des circonstances précises et que tous les fruits du niveau devaient être récupérés pour gagner le maximum de points, puisque les développeurs lui ont fourni ces informations avant même qu’elle ne débute le premier niveau. Difficile de leur en vouloir, Maluuba étant une simple “preuve de concept”, dont l’ambition réelle est plutôt à chercher du côté de la compréhension du langage naturel, beaucoup plus intéressante commercialement pour Microsoft. Au moins, le coup de pub est réussi : l’entreprise a désormais un record à mettre au crédit de son IA. À vous, Google.