Quicksilver, le bot qui identifie les scientifiques oublié·e·s de Wikipédia

Le bot, nommé Quicksilver, est capable de reconnaître les oublié·e·s de la grande encyclopédie numérique et de leur écrire une page personnelle.

Non, pas lui. (© 20th Century Fox)

C’est un refrain de plus en plus insistant au sein de la communauté de l’intelligence artificielle : les algorithmes refléteraient et perpétueraient les biais de perception et les inégalités de traitement de la société humaine. Si un tas d’exemples d’IA racistes et sexistes viennent étayer cette hypothèse, parfois, d’autres initiatives nous rappellent que les bots peuvent aussi être utilisés pour combattre certaines inégalités.

Dernier exemple en date, relayé par The Register : Quicksilver, un logiciel édité par la start-up Primer, qui parcourt inlassablement des publications et articles d’actualité liés au monde de la recherche scientifique pour identifier les chercheurs (ne nous voilons pas la face, ce sont bien plus souvent des chercheuses) ayant malencontreusement raté le train de la postérité numérique en dépit de l’importance de leur contribution. Mieux, le programme est ensuite capable de leur écrire une page Wikipédia sommaire, suffisante pour leur rendre justice.

40 000 absents identifiés en une nuit

Dans un post de blog, John Bohannon, responsable du projet chez Primer, détaille la méthode utilisée : " Nous avons entraîné Quicksilver à partir de 30 000 articles Wikipédia scientifiques en anglais, leurs entrées Wikidata (une base de données collaborative qui sert à enrichir les pages Wikipédia), et 3 millions de phrases tirées d’articles évoquant leur parcours et leur travail. Ensuite, nous avons injecté les noms et affiliations de 200 000 auteurs scientifiques." Le matin suivant, explique Bohannon, Quicksilver a découvert "40 000 personnes absentes de Wikipédia" possédant pourtant la même exposition médiatique que ceux déjà listés dans l’encyclopédie. En une nuit, le bot a doublé le nombre de scientifiques éligibles à une place dans la base de données.

Dans la foulée, le bot rédige une centaine de biographies de scientifiques manquants, que Primer s’empresse de publier… "en attendant de voir quand elles apparaîtront sur Wikipédia". Pour le moment, Quicksilver a directement aidé une seule chercheuse : Joëlle Pineau, une roboticienne canadienne, qui a désormais sa propre page. Une femme, évidemment, puisque 82 % des articles de l’encyclopédie sont dédiés à des hommes. À l’heure actuelle, Quicksilver a déjà participé à trois "éditathons" Wikipédia en langue anglaise en faveur d’une plus grande parité dans la représentation scientifique, explique John Bohannon dans son résumé.

Un superbe outil de gestion

Au-delà d’un puissant outil de lutte contre le biais sexiste inhérent à l’encyclopédie en ligne, Quicksilver est également une belle réussite technologique du point de vue du traitement du langage naturel, le champ de recherche qui essaie de faire comprendre notre langage aux algorithmes. Si Quicksilver n’est pas le premier bot à tenter de dompter Wikipédia – en janvier dernier, les équipes de Google Brain s’y mettaient aussi, sans trop de succès –, il est cependant le meilleur élève jusqu’à maintenant. Résumer la vie et l’œuvre de quelqu’un en quelques lignes est un exercice ardu, qui nécessite une certaine capacité de hiérarchisation de l’information, et l’IA de Primer s’en sort plutôt bien, dans un style relativement sec.

Mais, pour Bohannon, l’intérêt de son IA réside ailleurs. Non content d’utiliser Wikipédia comme un terrain de jeu, il voit plutôt Quicksilver comme un outil de gestion de l’immense base de données de l’encyclopédie - une sorte de documentaliste, capable de mettre à jour les fiches Wikipédia qui en ont besoin en fonction de l’actualité et d’en faire entrer de nouvelles en fonction de la notoriété des sujets. Même si, comme tout robot codé par des humains, Quicksilver aura forcément son propre biais de perception.

Et Bohannon le sait : "Quicksilver offre aux éditeurs humains l’information dont ils ont besoin pour créer des pages Wikipédia, en se basant sur ce qui a été publié à leur sujet dans des articles sourcés, mais ce sont les éditeurs qui décident ou non de créer une page", se défend-il dans The Verge. "Les éditeurs humains de la plus grande source d’information au monde peuvent être épaulés par le machine learning." Avec 50 millions d’articles et 15 milliards de visites par mois, difficile de le contredire, d’autant que l’encyclopédie est à peu près constamment accusée de tous les biais possibles - pour vous en convaincre, allez faire un tour sur la page Wikipédia dédiée.

Science, tech, culture numérique et galéjades. Internet est mon église.