ChatGPT : des employés kényans dénoncent la “torture” de leur travail pour réduire la toxicité de l’IA

Publié le par Pierre Bazin,

Watching horror movie on tv

Pour moins de 2 euros de l’heure, ils ont vu défiler d’horribles textes et images pour ne pas que vous les voyiez.

A voir aussi sur Konbini

Attention, cet article contient des descriptions explicites de violence, viols et agressions sexuelles.

Publicité

La montée en puissance des intelligences artificielles (IA) et surtout leur nouvelle accessibilité inédite au grand public ont durablement marqué l’année 2022. Dans les ténors du genre, c’est l’entreprise OpenAI qui a fait le plus de bruit. Elle a récemment été valorisée à 29 milliards de dollars et pourrait bientôt recevoir un investissement de 10 milliards de dollars du géant Microsoft.

Publicité

Deux outils développés par OpenAI se sont démarqués. Tout d’abord, Dall-E, qui est capable de générer des images à partir de descriptions, et plus récemment, ChatGPT, un outil de génération de texte dont les possibilités “infinies” effraient autant qu’elles fascinent. D’une recette de cuisine fantaisiste et personnalisée à la réécriture des Misérables comme si c’était chanté par Jul, en passant par des dissertations d’étudiants, rien ne semble arrêter la bête. Durant sa semaine de lancement en novembre dernier, ChatGPT avait déjà réuni un million d’utilisateurs.

Avant ChatGPT, il existait une version bêta nommée GPT-3. Cette dernière, encore incomplète, avait notamment montré des limites et s’était montré capable d’exprimer explicitement des actes de violence. En 2020, la start-up française Nala s’était basée sur le modèle de GPT-3 (contre l’avis d’OpenAI) pour concevoir son propre chatbot médical. Durant la phase de test, ce dernier avait “conseillé” à un patient de se suicider.

Publicité

Aujourd’hui encore, c’est une des plus grandes limites de l’intelligence artificielle : son mimétisme des comportements et réactions humaines est basé sur ce qu’elle “observe” sur Internet. Malheureusement, le Web n’est pas connu pour être une parfaite safe place. Ainsi, la violence des propos et des actes qu’on y trouve peut se retrouver intégrée dans les réponses des IA.

C’est justement la promesse de ChatGPT : une absence totale de toxicité ou de violence explicite dans les textes générés. Force est de constater que l’outil d’OpenAI a réussi son pari et n’a pas réitéré les erreurs de ses prédécesseurs. Sauf que ces vertus ne se développent pas en un claquement de doigts, elles ont un coût financier mais surtout humain.

Derrière les IA, il y a toujours des humains

Pour lutter contre les contenus toxiques et violents avec des intelligences artificielles, il n’y a pas 1 000 solutions pour le moment : il faut recourir à l’esprit humain. OpenAI a fait comme les géants des réseaux sociaux, tels que Facebook, avant lui en s’appuyant sur “l’annotation de données”. Les IA reçoivent ainsi des images, des vidéos, des textes contenant des descriptions violentes afin qu’elles puissent comprendre ce qui doit être labellisé ainsi – et donc interdit.

Publicité

Une grande enquête du Time s’est ainsi penchée sur les partenaires d’OpenAI, chargés d’identifier les contenus dangereux. Pour obtenir cette annotation de données, OpenAI a sous-traité cette tâche à Sama, une firme basée à San Francisco mais dont les travailleurs sont au Kenya. Créée en 2021, cette entreprise “d’IA éthique” a déjà travaillé pour de gros clients tels que Google, Meta ou encore Microsoft.

Plusieurs dizaines de milliers de textes ont ainsi été envoyés à Sama pour qu’ils puissent être lus, analysés et annotés par ses employés kényans. Certains d’entre eux étaient particulièrement explicites en détails graphiques sur des sujets tels que l’abus sexuel d’enfants, le meurtre, le suicide, la torture, l’automutilation ou encore l’inceste.

Le Time a pu accéder à des centaines de pages de documents internes de Sama et d’OpenAI, dont les fiches de paie des employés. Quatre d’entre eux ont également été interviewés, sous couvert d’anonymat. Trois déclarent ainsi qu’ils devaient lire et annoter entre 150 et 250 passages de texte par quart de travail de neuf heures, des extraits pouvant aller d’environ 100 mots à plus de 1 000.

Publicité

Les quatre employés interrogés par le Time ont déclaré avoir été mentalement affectés par leur travail. Un employé de Sama en particulier explique avoir souffert de “visions récurrentes après avoir lu une description graphique d’un homme ayant des relations sexuelles avec un chien en présence d’un jeune enfant”.

“C’était de la torture […]. Vous lisez un certain nombre de déclarations comme celle-là tout au long de la semaine. Au moment où arrive vendredi, vous êtes perturbé en repensant à ces images.”

Un porte-parole d’OpenAI a déclaré au Time que des conseillers psychologiques étaient présents pour tout employé de Sama qui en faisait la demande. Dans les faits, aucun entretien individuel ne semble avoir pu être mené, ce qu’OpenAI trouve “inacceptable” en renvoyant la balle à son sous-traitant.

Publicité

La nature traumatisante du travail a finalement conduit Sama à annuler tout son travail pour OpenAI en février 2022, huit mois plus tôt que prévu.

Un contrat prématurément rompu

Selon les documents récupérés par le Time, OpenAI a signé avec Sama trois contrats pour une valeur de 200 000 dollars. En bout de course, la soixantaine d’employés kényans ne touchaient qu’un salaire horaire oscillant entre 1,32 et 2 dollars nets, sachant que cette valeur maximum ne pouvait être atteinte qu’à la condition d’un certain nombre d’objectifs quantitatifs remplis. La majorité des employés sur cette mission ont ainsi touché un salaire mensuel de 21 000 shillings kényans (environ 160 euros), sachant que le salaire minimum est actuellement de 15 120 shillings – environ 124 euros.

À partir de février 2022, Sama aurait commencé à progressivement s’éloigner d’OpenAI. En quelques semaines, l’entreprise aurait rompu plusieurs contrats, et ce, huit mois avant le terme et la livraison. Dans un communiqué, la société de sous-traitance a déclaré que l’accord de “collecte d’images” pour OpenAI ne comportait aucune référence à un contenu illégal. Ce n’est qu’après signature qu’OpenAI aurait demandé une collecte d’images aux contenus illégaux – notamment de la pédopornographie. Un porte-parole de Sama déclare ainsi au Time :

“Sama a immédiatement mis fin au projet de classification d’images et a annoncé qu’elle annulerait tous les [projets] restants avec OpenAI.”

Dans un communiqué, OpenAI a confirmé avoir reçu 1 400 images de Sama qui incluaient toutes les catégories de violence explicite possibles mais explique n’avoir jamais souhaité que les employés doivent aller chercher des images au contenu pédopornographique – et donc illégales. OpenAI pointe un “problème de communication” avec son ancien partenaire.

Le 10 janvier dernier, Sama est allée plus loin en annonçant annuler tous ses projets incluant du contenu sensible. L’entreprise ne renouvellerait pas non plus son contrat de modération de contenus (à hauteur de 3,9 millions de dollars) avec Facebook, entraînant la perte de quelque 200 emplois à Nairobi.

“Après de nombreuses discussions avec notre équipe au niveau mondial, Sama a pris la décision stratégique de quitter tous les travaux [de traitement du langage naturel] et de modération de contenus pour se concentrer sur les solutions d’annotation de données de vision par ordinateur.”

Toutefois, que ce soit Sama ou d’autres, cette nécessité d’annotation de données sensibles reste essentielle pour tous les outils à base d’IA. Le coût humain et psychologique des petites mains derrière les outils des grands géants de la tech reste néanmoins marginalisé à l’orée des grandes levées de fonds à plusieurs milliards.