Ces IA généraient des images en se basant sur… des contenus pédopornographiques

Image :

Publié le 21/12/2023

Stable Diffusion en ferait partie.

Si vous vous êtes déjà amusé·e à fabriquer des images grâce à un modèle d’intelligence artificielle générative, vous avez peut-être sans le vouloir mobilisé une base de données liée à des images pédopornographiques. C’est en tout cas le résultat d’une étude de l’Observatoire d’Internet de Stanford, relayée par 404 Media. Publiée ce mercredi 20 décembre, elle met en garde contre LAION-5B, une base de données qui a servi à entraîner de nombreux modèles comme Stable Diffusion. Elle contiendrait près de 6 milliards d’images, dont des milliers d’images illégales. Parmi elles, au moins 3 226 seraient définies comme du contenu pédopornographique.

À voir aussi sur Konbini

À la base, LAION (pour Large-scale Artificial Intelligence Open Network) est une ONG qui crée des outils de machine learning en open source. LAION-5B est l’un de ses plus gros produits – et aussi le plus populaire. Sa base de données contient des liens d’images trouvées sur Internet, y compris sur les réseaux sociaux. Et sur X/Twitter comme sur Facebook, certains contenus relèvent de la pédopornographie, explique Marcus Rogers, doyen adjoint des Initiatives de Cybersécurité à Purdue University, à 404 Media. “Les entreprises ne veulent tout simplement pas savoir. Et même si elles voulaient savoir, en réalité elles ont littéralement perdu tout contrôle, avance-t-il.

Si bien que dès 2021, l’équipe de LAION émettait déjà des inquiétudes quant à la légalité de certains contenus utilisés pour nourrir cette base de données. Il a alors été tenté de la filtrer, sans trop de succès… Et LAION-5B a malgré tout été mis en ligne. Peut-être en espérant que si personne ne remarquait le grain de sable dans les rouages, il ne perturberait rien. Mais dès août 2022, des utilisateurs de la base de données se sont inquiétés à leur tour des contenus qui s’y trouvaient. Ce n’est que sept mois plus tard que ces remarques ont enfin été prises en considération.

LAION s’est justifié auprès de 404 Media, expliquant avoir “développé et publié ses propres filtres rigoureux pour détecter et supprimer les contenus illégaux des bases de données LAION avant de les publier.”

Sur le même sujet...

Enquête ouverte à l’encontre de l’auteur de BD Bastien Vivès pour diffusion d’images pédopornographiques

<p>Crowd of protesters people. Silhouettes of people with banners and megaphones. Concept of revolution or protest. Vector</p>

Et si les youtubeurs faisaient la grève des contenus ?

Netflix va investir 2,5 milliards de dollars sur quatre ans dans des contenus sud-coréens

En attendant, “si vous avez déjà téléchargé cette base de données complète pour n’importe quelle raison, pour entraîner des modèles pour de la recherche, alors oui, vous possédez forcément des images pédopornographiques, à moins d’avoir pris des mesures exceptionnelles pour l’empêcher”, révèle David Thiel, l’auteur principal de l’étude de Stanford, à 404 Media. Résultat : ce mardi, LAION a temporairement suspendu ses bases de données LAION-5B et LAION-44M, “pour s’assurer qu’elles sont sans danger avant qu’on les republie.” C’est déjà ça.

Ces IA généraient des images en se basant sur… des contenus pédopornographiques

Stable Diffusion en ferait partie.

À la une

Céline Dion clôture en beauté la cérémonie d’ouverture des JO

La cérémonie d’ouverture des Jeux Olympiques 2024 était absolument incroyable : le grand n’importe quoi des réseaux sociaux

Qui est Thomas Jolly, le directeur artistique de la cérémonie d’ouverture des JO de Paris 2024 ?