Vidéo : une IA aide cette main robotique à s’améliorer sans cesse

Publié le par Pierre Schneidermann,

A voir aussi sur Konbini

Au menu : apprentissage par renforcement et “domain randomization”.

Publicité

Publicité

À 13 reprises sur 50, cette créature robotisée a remporté son défi haut la main : triturer un cube dans tous les sens pour le faire parvenir dans la position qu’on lui demandait, le tout avec une étonnante dextérité.

Une prouesse relayée par la MIT Technology Review, que nous devons à des chercheurs d’OpenAI, une organisation de recherche à but non lucratif visant notamment à rendre l’intelligence artificielle (IA) plus “safe” (mais rien à voir avec ce qui nous occupe aujourd’hui).

Publicité

Trois éléments principaux composent notre robot : une main articulée sophistiquée (développée par Shadow, une entreprise anglaise), une caméra classique et des algorithmes pointus dont il va bien falloir dire deux ou trois mots.

La machine carbure au “reinforcement learning” (“apprentissage par renforcement”), l’une des principales méthodes utilisées aujourd’hui pour qu’une intelligence artificielle apprenne “toute seule” – le fameux “machine learning” dont tout le monde parle.

Récemment, on avait d’ailleurs déjà croisé ce reinforcement learning dans l’algorithme qui avait formé des bots à battre des humains à Quake III. Mais l’exemple le plus connu à ce jour reste celui d’AlphaGO, l’IA championne au jeu de go.

Publicité

Ceci dit, le reinforcement learning ne suffisait pas. L’équipe d’OpenAI a ajouté à la recette un peu de “domain randomization”. La technique consiste à créer un très grand nombre d’images virtuelles déformant la réalité pour améliorer les capacités de reconnaissance visuelle de l’algorithme. C’est du chinois pour vous ? L’image ci-dessous vous aidera à mieux comprendre :

Last but not least : parce que l’IA apprend toute seule, sa dextérité peut, sans problème, s’exercer sur un autre objet. Il lui faudra juste beaucoup d’entraînement et plein de nouvelles et belles images issues de la domain randomization.