AccueilÉDITO

Grâce à vos photos Instagram, Facebook a pu entraîner ses algorithmes comme jamais

Publié le

par Thibault Prévost

LONDON, ENGLAND – AUGUST 03: The Instagram app logo is displayed next to an « Instagrammed » image on another iPhone on August 3, 2016 in London, England. (Photo by Carl Court/Getty Images)

Le 2 mai, le réseau social a dévoilé des résultats impressionnants pour son algorithme de reconnaissance d’objets, dopé aux photos Instagram des utilisateurs.

(© Carl Court/Getty Images)

Mercredi 2 mai, lors de la seconde journée de la conférence annuelle des développeurs F8, Mike Schroepfer, chief technical officer (CTO) de Facebook, venait de prévenir le public que sa conférence allait majoritairement tourner autour de l’intelligence artificielle, décrite comme "la fondation de tout ce que fait Facebook". Un ton un peu grandiloquent pas franchement suffisant pour nous faire dresser les poils des avant-bras, tant ces grand-messes technologiques et leurs prédicateurs à col roulé piochent avec plaisir dans le vocabulaire liturgique pour vendre du rêve à coups d’interfaces de programmation. Pourtant, cette fois-ci, Schroepfer avait (en partie) raison : la division IA du réseau social a bien fait ses devoirs, et a dévoilé des résultats bluffants.

Plus spécifiquement, Facebook a révélé les conclusions d’une expérience d’une échelle inédite menée pour tenter de faire progresser les algorithmes de reconnaissance d’images, dont la marge de progression dépend énormément de la qualité et de la taille de la base de données sur lesquels ils s’appuient pour apprendre. Celui de Facebook, appelé Detectron (on est d’accord, c’est un super nom pour mener la révolution des machines), a étudié et digéré une base de données de 3,5 milliards d’images, chacune d’entre elles précisément légendée. Il y a quelques mois, en septembre 2017, Google et l’université Carnegie Mellon dévoilaient ce qui était alors la plus grande base de données jamais fournie à une IA de reconnaissance visuelle : 300 millions de photos. Facebook a réuni dix fois plus de données que son concurrent. Conséquence logique : son algorithme détient désormais le record de précision dans le domaine, avec un score de 85 % sur l’outil d’évaluation de référence ImageNet. Google, de son côté, atteignait 83 % en février dernier.

Des humains… aux humains

Au-delà de la guéguerre des chiffres (Google repassera probablement devant Facebook, puis Amazon publiera à son tour, etc.), c’est la méthode utilisée pour parvenir à ces résultats qui est la plus intéressante à étudier. Depuis leur création, les algorithmes de reconnaissance visuelle sont entièrement dépendants de la qualité des données qu’on leur transmet. Pour progresser sereinement, un algorithme doit donc se baser sur des photos correctement et précisément légendées – par exemple, quand vous prenez une photo de votre chat Maine Coon à côté d’un bol de guacamole, l’algorithme doit désormais être capable d’identifier "maine coon" et "guacamole", alors que les chercheurs se contentaient encore d'"animal" et "nourriture" il y a peu.

Pendant plusieurs années, la meilleure manière pour les chercheurs de labelliser les datasets était encore de payer des opérateurs humains pour labelliser à la main des milliers de photos. Ou mettre tous les internautes à contribution, en les forçant à identifier des fruits, des animaux ou des voitures pour leur permettre d’accéder à une page Web – voilà, maintenant vous savez à quoi servait également l’outil de vérification ReCaptcha, acheté par Google en 2009. Mais aujourd’hui, plus besoin de s’embarrasser de telles procédures, puisqu’il existe une gigantesque banque d’images parfaitement labellisées, collaborative, dont une partie au moins est en accès public. Mieux encore : elle appartient à Facebook.

Un outil extrêmement puissant… et extrêmement limité

Vous l’aurez deviné, c’est d’Instagram qu’il s’agit. Et voilà comment grâce à vos photos, vos hashtags et vos réglages de vie privée, l’entreprise est parvenue à développer le plus puissant algorithme de reconnaissance visuelle au monde, en mettant quand même à contribution 336 cartes graphiques montées en réseau pendant trois semaines complètes. À titre de comparaison, si un être humain avait dû identifier et annoter manuellement 3,5 milliards de photos, il lui aurait fallu "environ un siècle", dixit Srinivas Narayanan, responsable de l’IA chez Facebook.

Lors de la démonstration faite à la F8, les résultats de l’algorithme illustraient surtout sa capacité à identifier chaque ingrédient d’une soupe pho, distinguer deux races de chats mignons ou isoler chaque élément contextuel d’une photo classique (un homme – qui porte un bonnet et une barbe – pose devant un mur en brique en tenant un fixie), ce qui est bien normal au vu des données sur lesquelles il s’appuie, mais les applications de la technologie sont bien plus vastes.

Comme l’explique Wired, en utilisant la technique dite de l’apprentissage par transfert, les chercheurs de Facebook vont pouvoir mettre les compétences de l’algorithme au service d’autres tâches, plus importantes, comme l’identification du contenu illicite – violence graphique, pornographie, propagande terroriste et autres joyeusetés, que le réseau social a promis de combattre en développant toujours plus d’algorithmes. Évidemment, l’approche expérimentale du réseau social a aussi ses limites : leur algorithme excelle à une tâche (distinguer des objets)… mais ne sait rien faire d’autre.

Aujourd’hui, Facebook travaille séparément sur la reconnaissance visuelle, textuelle et sonore pour développer différents outils, et la F8 nous a même prouvé qu’il est désormais possible de les combiner dans certains cas pour parvenir à un embryon de raisonnement. Mais tant qu’une nouvelle formule d’apprentissage n’émergera pas, les algorithmes les plus puissants resteront de simples outils d’identification, incapables de la moindre analyse contextuelle.

Ah, et si jamais l’idée que vos photos Instagram servent à entraîner les algorithmes de Facebook vous déplaît, il vous suffit de rendre votre compte privé.

À voir aussi sur konbini :