Crédit: FlickrCC

Sans aucun scrupule, Google a fait bosser des intérimaires sur son IA militaire

Une enquête de The Intercept révèle que Google a sous-traité l’identification des images de son programme de drone à une entreprise d’intérimaires.

(© Think Defence/Flickr/CC)

Le projet Maven, ça vous parle ? Mais si, la collaboration entre Google et le Pentagone pour développer un algorithme de reconnaissance d’images capable de faciliter le travail des analystes de l’Air Force, en identifiant efficacement les choses les plus importantes apparaissant dans les heures de rushes vidéo filmés par les drones de l’armée.

Publicité

En mars 2018, le site d’investigation The Intercept révélait cette discrète collaboration au monde… et aux employés du groupe, qui s’alarmaient de travailler sur des logiciels militaires sans le savoir. En mai, plusieurs dizaines d’employés démissionnaient pour exprimer leur désaccord, après une pétition signée par 3 000 personnes ; en juillet, l’entreprise cédait, annonçant ne pas renouveler le contrat passé avec le Pentagone, censé expirer en 2019. Crise gérée, leçons tirées, circulez, il n’y a rien à voir. Sauf qu’en 2019, The Intercept n’en a pas fini avec cette affaire.

Le 4 février, le site d’investigation de Glenn Greenwald a révélé que Google a sous-traité la tâche la plus ingrate du système, à savoir l’entraînement de l’IA de reconnaissance d’images, à une entreprise de crowdsourcing en ligne. La boîte, rebaptisée Figure Eight après avoir été contactée par Google en octobre 2017, est une plateforme de travail intérimaire de micro-tâches, similaire au Mechanical Turk d’Amazon, sur laquelle des milliers de personnes, souvent en provenance des pays du Sud, effectuent des travaux simples et/ou répétitifs contre une très faible rémunération.

De plus en plus souvent, les tâches consistent à labelliser, identifier, vérifier et corriger des bases de données, qui seront ensuite utilisées pour entraîner des algorithmes. C’est exactement ce que Google a fait pour Maven.

Publicité

De "l’humain dans la boucle"

Reprenons : vous êtes Google, le Pentagone vous contacte et vous propose de développer, contre une belle somme d’argent, un algorithme de reconnaissance d’images pour filer un coup de main à ses analystes. Vous acceptez. Que veut l’armée ? Que le logiciel soit capable d’identifier en temps réel et avec certitude des arbres, des véhicules militaires, des bases rebelles, des civils voire, si vous êtes Colin Powell, des entrepôts de stockage d’armes de destruction massive en Irak.

Pour Google, aucun souci. Tout ce dont l’entreprise a besoin, c’est d’une base de données labellisée correctement pour expliquer à l’algorithme à quoi ressemble une voiture, un missile, etc. Le reste, ensuite, n’est qu’une histoire de machine learning.

En octobre 2017, Google reçoit donc une base de données d’images du Pentagone, probablement issues de vidéos de reconnaissance filmées par des drones. Reste la partie ingrate et fastidieuse du boulot : identifier manuellement les éléments présents sur chaque image. Et pour ça, rien de mieux qu’une armée de tâcherons sous-payés dans les pays du Sud.

Publicité

Et quitte à choisir une plateforme, autant en choisir une spécialisée dans ce type de boulot, comme Figure Eight. Sur son site, la plateforme se définit sans ambages comme "une plateforme d’humain-dans-la-boucle qui transforme du texte, des images, de l’audio et des données vidéo déstructurées en données d’entraînement customisées de haute qualité". En d’autres termes, Figure Eight dispose d’un réservoir de dresseurs d’IA, engagés à faire ce que les algorithmes ne peuvent pas réaliser seuls.

Les travailleurs de Figure Eight savaient-ils à quoi allaient servir ces images dûment labellisées ? Non, à en croire les témoignages recueillis par The Intercept. C’est d’ailleurs la norme : les employés n’ont pas d’éléments de contexte, ils doivent simplement réaliser une tâche basique. Une autre manière, pour Google, de fragmenter le travail pour rendre ses travaux en IA plus rapides, plus économiques, mais aussi plus opaques.

Et il n’y a pas que Google : si l’entreprise de Mountain View fait de plus en plus appel à ces plateformes de micro-tâcherons, l’essor des services algorithmiques génère une formidable demande de bases de données labellisées, que ce soit pour un projet militaire, pour un assistant vocal, pour un véhicule autonome ou pour un algorithme de recommandation d’image. Or, en 2019, pour entraîner les soi-disant "intelligences artificielles", il n’y a pas 50 solutions : ce sont les humains qui font le sale boulot, que ce soit gratuitement (vos hashtags Instagram, par exemple) ou en étant rémunérés une misère.

Publicité

Par Thibault Prévost, publié le 06/02/2019

Pour vous :