Le logiciel, basé sur des réseaux antagonistes génératifs, parvient à créer des environnements virtuels photoréalistes à partir de simples dessins.
À voir aussi sur Konbini
Concevoir des environnements virtuels photoréalistes est une quête qui remonte à l’invention du jeu vidéo. À chaque nouvelle décennie, la puissance de calcul et de rendu des consoles franchit un nouveau cap, donnant naissance à des mondes de plus en plus grands, de plus en plus complexes et de plus en plus difficiles à distinguer des prises de vues réelles.
Prenez Red Dead Redemption 2, par exemple, et lancez une vidéo de gameplay en 4K : tout y est, lumière changeante, textures des matériaux, physique des objets parfaitement réaliste… Difficile, pour qui a grandi avec une manette de Super Nintendo dans les mains, au mitan des années 1990, de ne pas s’esbaudir devant le chemin parcouru.
C’est vite oublier que de telles prouesses graphiques sont avant tout le résultat d’un travail acharné. Le monde ouvert de RDR2 a demandé près de huit ans (!) de travail à une équipe de 1 000 développeurs, dont les semaines de travail pouvaient flirter avec la centaine d’heures. Bref, créer des mondes virtuels mobilise énormément d’énergie et peut parfois devenir un véritable cauchemar – demandez aux développeurs de Hello Games (No Man’s Sky) ou, pire encore, de Cloud Imperium Games, qui se débattent avec l’ambitieux mais foireux Star Citizen depuis bientôt sept ans.
Sauf qu’évidemment, en 2018, l’intelligence artificielle est en passe de résoudre tout ce que l’humanité compte de problèmes techniques, et le game design ne fait pas exception. Désormais, un logiciel est capable de générer des environnements virtuels sans l’aide de personne.
Superordinateur et réseau de neurones
À la conférence NeurIPS de Montréal, le constructeur de cartes graphiques Nvidia a présenté sa dernière invention, encore au stade de prototype mais déjà impressionnante, à en croire les observateurs d’Engadget et du MIT Technology Review présents sur place.
Au premier abord, pourtant, rien d’extraordinaire : une simulation de ville, aux graphismes même pas franchement impressionnants par rapport aux meilleurs jeux vidéo actuels. Sauf qu’à la différence de ces derniers, la simulation a été générée automatiquement, à partir d’une séquence filmée.
Non, il ne s’agit pas d’un simple moteur graphique ou d’un filtre appliqué à la vidéo, c’est bien plus compliqué que ça : théoriquement, à partir de séquences réelles, l’algorithme de Nvidia est capable de générer virtuellement un univers correspondant, en y incluant des éléments inédits.
Une prouesse technologique qui, selon Nvidia, nécessite de combiner trois éléments distincts : un moteur graphique, un super-ordinateur et des réseaux antagonistes génératifs (GAN), la forme d’apprentissage supervisé la plus prometteuse du champ de l’intelligence artificielle.
Voilà comment ça fonctionne : premièrement, le système est entraîné sur des vidéos tournées avec la dash cam d’une voiture autonome. Ces images urbaines sont ensuite traitées pendant environ une semaine par le modèle algorithmique dans le super-ordinateur DGX-1 de l’entreprise – un monstre spécialement conçu pour le deep learning, capable de mobiliser 170 téraflops de puissance de calcul (un téraflop équivaut à 10 puissance 12 opérations par seconde).
Pendant ce temps, les ingénieurs de Nvidia créent une “carte sémantique” de la scène (à partir du moteur graphique Unreal Engine 4), qui revient à assigner à chaque pixel une valeur d’objet – “arbre”, “voiture”, “humain”, etc. — pour créer une sorte de brouillon virtuel de la scène en question. Une fois l’IA correctement entraînée, c’est elle et elle seule qui a appliqué les textures aux formes correspondantes, pour transformer l’amas de pixels labellisé “voiture” en un objet photoréaliste virtuel.
Le tout en temps réel, avec une simulation lancée à 25 images par seconde. Le résultat n’est pas encore parfait – certains objets souffrent de distorsion, les textures sont loin du photoréalisme total et le rendu dynamique de la lumière est encore étrange —, mais la technologie ne va aller qu’en s’améliorant, et c’est déjà beaucoup.
Le réel, c’est surfait
Qu’on ne s’y trompe pas : si l’IA en développement chez Nvidia promet d’alléger énormément le travail des équipes de conception de jeux vidéo et, du coup, de nous rapprocher exponentiellement de titres aux graphismes virtuellement indissociables de la réalité, les applications vont bien plus loin.
Les voitures autonomes, par exemple, ont besoin d’accumuler des années de conduite en environnements virtuels (Nvidia en développe d’ailleurs un) pour s’entraîner à rencontrer tous les types de situations possibles sur les routes. La réalité virtuelle pourrait de même énormément bénéficier d’un logiciel de ce genre, à condition que les résultats de rendu s’avèrent à la hauteur. Enfin, n’importe qui pourrait créer son avatar virtuel automatiquement à partir d’une courte séquence vidéo.
Pour le moment, et même si le code source du projet est en open source, il reste encore beaucoup de progrès à faire, notamment sur la capacité du système à synthétiser les objets virtuels sur de longues périodes de temps (dans le modèle actuel, ils ont tendance à changer de couleur).
S’il y a bien une chose que démontre une nouvelle fois l’incursion de Nvidia dans le domaine des mondes virtuels, c’est la domination à venir des réseaux antagonistes génératifs (GAN) dans le domaine de “l’apprentissage profond”, le deep learning. Cette technique d’apprentissage algorithmique, inventée il y a à peine quatre ans par un ingénieur de Google et qui consiste à mettre deux IA en compétition l’une contre l’autre, est en train de relever le défi d’offrir aux machines le don d’imagination – ou, du moins, de conceptualisation.
La technique nous a déjà malheureusement offert les deepfakes et promet, dans un avenir très proche, de faire tomber les barrières entre réel et virtuel. C’est d’ailleurs là que la discussion devient un peu flippante. Ce qu’offre Nvidia promet de rapprocher encore un peu plus les deux mondes, et il n’est donc pas difficile d’imaginer le logiciel transformé en arme de désinformation massive. Il s’agirait maintenant de commencer à développer d’aussi puissants outils d’identification de fausses vidéos.