Faut-il doter les assistants vocaux d’un corps pour les rendre plus performants ?

On a beau les appeler communément “intelligences artificielles”, les assistants vocaux commerciaux (Alexa pour Amazon, Siri pour Apple et Home pour Google) embarqués dans les enceintes intelligentes, qui commencent, doucement, à se démocratiser dans les salons occidentaux, sont pourtant loin d’être des lumières.

Pour donner l’heure et la température à Manille, lire une recette de cuisine ou une fiche Wikipédia, effectuer des opérations de calcul inaccessibles pour le cerveau humain, oui, il y a du monde – normal, quand on est connecté à Internet et qu’on dispose d’un processeur et de mémoire vive.

Mais au moindre “hum” mal placé, à la moindre formulation inhabituelle, au plus petit accent régional, Alexa et ses copains deviennent désespérément muets. Avez-vous déjà essayé d’avoir une conversation avec l’une de ces machines ? Ne vous fatiguez pas, elles sont programmées pour esquiver les réponses.

Malgré les immenses progrès réalisés ces dernières années dans la reconnaissance du langage naturel, la reconnaissance vocale et l’identification visuelle, l’intelligence artificielle est toujours un leurre, les IA dites “conversationnelles” sont une chimère, et le “grand remplacement robotique” est un chiffon rouge bien pratique à agiter en face des révoltés de la précarisation du tertiaire.

Que manque-t-il aux algorithmes pour atteindre le stade dit d’intelligence artificielle générale (AGI), qui les verrait rivaliser avec nous dans tous les domaines ? Oh, pas grand-chose, rien qu’un peu de bon sens. Celui qui nous permet de savoir comment un verre rempli d’eau va se comporter si on le laisse tomber, peu importe sa forme, peu importe qu’on l’ait déjà vu tomber ou non. Notre cerveau est une surpuissante machine à déduire à partir de rien et néanmoins viser juste.

Simple, non ? Pas vraiment. Programmer ce “bon sens” est l’Everest des chercheurs en IA, la montagne qui nous sépare des possibilités infinies que promet la super-intelligence. Comment y parvenir ? Pour le créateur d’Alexa, interrogé le 26 mars par le MIT Technology Review, le mieux est encore de laisser les assistants vocaux y parvenir tout seuls. En les dotant d’un corps.

Et si la conscience était un effet secondaire de la sensation ?

Rohit Prasad fait partie des chercheurs en IA qui pensent que la quête de l’AGI passera par une approche entièrement nouvelle de l’architecture algorithmique, les différentes méthodes et structures d’apprentissage machine (apprentissage supervisé ou non, réseaux convolutifs, réseaux antagonistes génératifs, etc.) paraissant vouées à se casser les dents sur le mur du bon sens car incapables de faire autre chose que d’identifier des motifs.

Selon lui et d’autres, donc, la seule manière pour un programme informatique d’acquérir l’information contextuelle du langage serait de se déplacer dans le monde réel, via un corps robotique qu’on imagine doté de senseurs, pour lier l’information contenue dans les mots à des sensations subjectives (pour vous donner une idée du lien, imaginez que l’on vous charge d’expliquer la couleur rouge à un aveugle de naissance).

De cette manière, en faisant correspondre les mots à des perceptions, les machines pourraient acquérir empiriquement la volition, le bon sens, la cognition, mais aussi la conscience de soi (la métacognition) et, pour finir, le libre arbitre (si tant est qu’il existe, mais c’est un autre débat). Tout cela, les sciences cognitives l’appellent la “théorie de l’esprit”.

Pour les thuriféraires de l’approche biologique, ce sont nos expériences corporelles qui nous rendent si doués à prédire le comportement de notre environnement et des autres sujets à partir d’un faible échantillon d’exemples (pour résumer, c’est en faisant tomber un verre d’eau par terre et en constatant les conséquences qu’on devine que la logique est valable avec tous les autres contenants).

Par extension, lorsque nous sommes placés face à un problème entièrement inédit en tant qu’adultes, nous pouvons puiser dans une immense bibliothèque d’expériences pour tenter de le résoudre – ce que nous appelons “intuition” n’est jamais que la résultante d’un processus complexe de sélection, de triage, d’identification de motifs et de mise en relation de souvenirs pour déterminer la solution la plus probable à l’inconnue de notre équation sensorielle.

Sans “vécu” propre, un algorithme, si puissant soit-il à identifier des motifs dans du bruit informationnel, est aussi désarmé qu’un nouveau-né face à l’inédit. Et vivre par procuration, en scannant Internet avant de fournir une réponse, ne suffit pas.

L’Internet des objets + un assistant vocal = un robot intelligent ?

À l’intersection de la robotique, des neurosciences et de l’IA, ce concept appelé cognition incarnée n’a, pour ainsi dire, rien de nouveau : en 2017, dans un long article qui décrivait le patron pour construire une machine “consciente”, Wired insistait déjà sur l’absolue nécessité de doter l’algorithme d’un corps capable de se déplacer et de percevoir les stimuli extérieurs, condition nécessaire (comme chez l’être humain) à un déploiement graduel de la conscience. En 2001, un article du roboticien du MIT Brian Scassellati soulignait déjà l’importance du corps dans la naissance d’une “théorie de l’esprit chez un robot humanoïde”.

Et du côté des constructeurs, Amazon semble écouter Prasad et les autres, puisque Alexa est désormais dotée d’une caméra et que la firme plancherait sur un robot domestique – ces robots n’auront probablement pas forme humanoïde, puisque de telles créatures nous mettent systématiquement mal à l’aise (et il y a un nom pour ça, l’uncanny valley). Pour l’instant, ni Apple ni Google n’ont sauté le pas, mais en auront-ils besoin ?

Dans les années à venir, la conjonction de l’Internet des objets et de la 5G permettra à votre assistant vocal d’avoir des yeux, des oreilles et des membres à foison pour explorer son environnement comme bon lui semble, en mettant à profit ses capacités de calcul et sa connexion à Internet pour progresser. Si votre assistant connecté commence à mordre ou à toucher tous les objets de votre salon, ne vous inquiétez surtout pas : c’est normal, le petit est en train d’apprendre le bon sens.

Faut-il doter les assistants vocaux d’un corps pour les rendre plus performants ?

Pour Rohit Prasad, permettre aux IA d'explorer le monde physique est la seule manière de leur inculquer le "bon sens".

Et si la conscience était un effet secondaire de la sensation ?

L’Internet des objets + un assistant vocal = un robot intelligent ?