Oui, Facebook autorise la lecture de vos posts, même partiellement privés

Ce n’est un secret pour personne : dans le monde de l’innovation algorithmique, posséder des ensembles de données correctement identifiés est vital. Développer le meilleur programme de reconnaissance d’image ne servira strictement à rien si celles que vous lui fournissez pour s’entraîner sont mal labellisées (dans le cas contraire, votre logiciel risque de confondre des phénotypes africains avec des singes, et vous allez vous retrouver dans une situation compliquée – demandez à Google).

Heureusement, nous vivons dans un monde où tout un chacun est ravi de faire le sale boulot d’annotation d’images. Certains, comme vous, le font gratuitement avec les CAPTCHA ou vos cohortes de hashtags ultra-précis qui accompagnent vos images de brunch et permettent à Facebook et Google de se tirer la bourre en reconnaissance d’images. D’autres, contre un salaire de misère, comme les milliers d’entreprises basées en Asie, sous contrat avec les géants du Web, fournissent des essaims de “micro-tâcherons” chargés de jouer les robots avant que le robot en question n’y parvienne tout seul. Dans la course à la labellisation de données, tout est bon pour prendre un avantage stratégique sur la concurrence. Quitte à écouter ses clients, ou laisser ses sous-traitants accéder aux données personnelles de ses utilisateurs.

700 posts labellisés par jour et par employé

Le 6 mai, l’agence de presse Reuters révèle dans une enquête que l’un des sous-traitants de Facebook dédié à la labellisation de données, WiPro, basé à Hyderabad (Inde), a autorisé ses 260 employés à plonger dans les posts privés des utilisateurs du réseau social bleu et d’Instagram pour approfondir son travail de catégorisation. Habituellement, ces dresseurs d’IA travaillent sur des statuts, photos, vidéos, liens partagés et Stories postés depuis 2014 sur les deux plateformes.

Chaque contenu est catégorisé par deux employés selon cinq critères, appelés “dimensions” : le contenu (animal, selfie, nourriture, voiture, etc.), le contexte (soirée, anniversaire, mariage, etc.), ou encore l’intention de l’auteur, plus sujette à interprétation (le post se veut-il drôle ? Émouvant ? Inspirant ?). Selon les témoignages récoltés par Reuters, chaque employé labellise environ 700 posts chaque jour (Facebook indique que la moyenne est plus basse). Et Wipro, lancé en avril 2018 et désormais réduit à 30 employés, est loin d’être le seul cas : Facebook travaille avec près de 200 projets d’annotation, qui emploient perpétuellement des milliers de personnes, confirme l’entreprise à Reuters.

Le problème, c’est que les posts incluent également ceux partagés à un petit groupe d’amis, ou ceux incluant des informations personnelles sur l’auteur ou les sujets du post, comme leurs noms ou adresses (dans le cas de commentaires, par exemple), ce que Facebook a reconnu. Le groupe explique que ces efforts de catégorisation des contenus permettent d’améliorer le service, notamment le secret et essentiel algorithme qui gouverne votre fil d’actualités. “C’est une partie essentielle de ce dont nous avons besoin”, a affirmé à Reuters Nipun Mathur, directeur des produits liés à l’IA chez Facebook. “Je ne vois pas ce besoin disparaître.”

RGPD ou pas RGPD ?

Au-delà de ce commentaire lapidaire, la question du respect de la vie privée se pose pourtant bien, particulièrement pour les utilisateurs européens protégés par le règlement général sur la protection des données (RGPD). Selon l’entreprise, pourtant, tout est en règle : ses équipes légales doivent approuver toute initiative de labellisation et l’entreprise s’est désormais équipée d’un système d’audit “pour s’assurer que les demandes en termes de vie privée sont respectées et que les paramètres en place fonctionnent comme prévu”. On fait difficilement plus vague, mais pourquoi pas.

La Politique d’utilisation des données du service l’explique : “nous donnons des informations et du contenu aux fournisseurs et prestataires de services qui soutiennent nos activités, notamment en proposant des services d’infrastructure technique, en analysant l’utilisation de nos produits, en fournissant un service à la clientèle, en facilitant les processus de paiement ou en réalisant des sondages.” Mais est-ce assez précis pour entrer en conformité avec le RGPD ? Pas sûr.

Nulle part ce paragraphe ne fait mention d’un travail de catégorisation des données personnelles des utilisateurs par des sous-traitants. Or le RGPD est tatillon : l’utilisateur doit en théorie avoir le choix de refuser chaque utilisation spécifique de ses données (opt out), au cas par cas.

En janvier, la Cnil collait à Google une amende de 50 millions d’euros pour cette raison précise : le groupe était reconnu coupable de décrire ses utilisations des données “de façon trop générique et vague”, ce qui constitue un manquement à l’obligation de transparence et d’information. Or, comme l’affirme Reuters, “ces initiatives de labellisation n’avaient jamais été rendues publiques”, ce qui place potentiellement Facebook sous le coup du RGPD. Reste maintenant à voir ce qu’en diront les régulateurs, dans le cas où une plainte viendrait à être déposée.

Oui, Facebook autorise la lecture de vos posts, même partiellement privés

Pour entraîner ses algorithmes, Facebook autorise certaines entreprises tierces à labelliser vos posts Facebook et Instagram.

700 posts labellisés par jour et par employé

RGPD ou pas RGPD ?