IA, travail et données personnelles : une approche sociologique de la régulation

Le sujet de la présentation d’aujourd’hui, c’est un peu une sorte de justification de mon projet de thèse.
En fait, je vais conclure par la question que je pose dans mon projet de recherche et, étant donné que je suis aujourd’hui dans l’antre du régulateur, mon objectif est de proposer une lecture un petit peu différente de ce qu’est la régulation, donc pourquoi intelligence artificielle, données personnelles et travail d’entraînement de l’intelligence artificielle sont, à mon avis, connectés les uns avec les autres et on devrait, on pourrait envisager une analyse qui les mette tous ensemble. C’est pour cela que cette présentation est intitulée « Intelligence artificielle, travail et données personnelles : une approche sociologique de la régulation et des institutions ».
Je vous présente des excuses par avance parce que ça va être un peu théorique, au moins au départ, mais je vais essayer d’être rapide et simple et puis peut-être qu’on pourra s’amuser un peu plus vers la fin où je vous monterai des choses un peu plus concrètes et un peu plus pratiques aussi.

La première chose que je vais faire va être de justifier ou expliquer les trois termes qui composent ce titre « Intelligence artificielle, travail et données personnelles » et ensuite je vous présenterai le plan de cette présentation.

Intelligence artificielle. C’est quand même un peu compliqué de définir ce terme, on a plein de définitions différentes.
La première, la plus standard on va dire, c’est celle qui est proposée par l’OCDE, par exemple, et qui est reprise ici par les auteurs de ce livre, Feeding the Machine : The Hidden Human Labour Powering AI, en 2024. Ils disent, en gros, qu’on peut voir l’intelligence artificielle pratiquement juste comme un algorithme, en fait, on a une entrée et une sortie, la sortie étant des décisions, des prédictions, des recommandations, avec un degré d’autonomie relativement plus élevé que le reste. À partir du moment où on commence à se poser la question d’un point de vue technique, c’est un peu compliqué de trouver quelque chose qui permette de regrouper tout ce qu’on met sous ce terme, lorsqu’on y pense, au moins dans la manière dont il est employé au quotidien.
Une contre-proposition qui est faite par Muldoon, Graham et Cant, dans ce livre qui consiste à dire, en gros, qu’on pourrait imaginer de proposer une définition sociale, sociologique, de l’intelligence artificielle et on pourrait dire que c’est une machine d’extraction.
Pour repartir un petit peu dans le passé, l’une des premières attributions de ce terme date de 1955, c’est la première fois qu’apparaît ce terme,l’objectif étant de créer des machines qui pourraient reproduire la capacité de raisonnement d’un être humain, voire la dépasser, c’était l’idée au départ. On a à peu près laissé tomber cela jusqu’à récemment et on se concentrait plutôt sur des systèmes dits d’intelligence artificielle resserrée, narrow AI.
Si on se pose la question du point de vue universitaire, ça donne à peu près ça, ce sont les disciplines de l’intelligence artificielle [1]. Là on voit quand même qu’il y a tout un tas de secteurs de recherche académiques qui ne sont pas forcément liés les uns aux autres mais qui sont tous très spécialisés – NLP, Natural Language Processing, data mining, des algorithmes génétiques, de la reconnaissance de discours, de la reconnaissance faciale. Ce sont tous des secteurs spécialisés dans le domaine de la recherche.
La proposition de Cant, Muldoon et Graham c’est donc qu’on peut voir l’intelligence artificielle comme une machine d’extraction. Pourquoi l’appellent-ils comme cela ? Simplement parce que, selon eux, trois grandes ressources sont nécessaires à la production de systèmes d’IA tels qu’on les connaît à l’heure actuelle : ce sont des données personnelles, ce sont des ressources physiques, donc bien évidemment du minerai qui est ensuite transformé et qui donne par exemple des processeurs ou des datacenters, et enfin du travail, beaucoup de travail d’entraînement, de supervision et de correction d’intelligence artificielle. C’est donc de cela dont il s’agit lorsque je parle de travail dans cette présentation. Il ne s’agit pas vraiment des personnes qui utilisent des intelligences artificielles dans leur quotidien en tant qu’utilisateurs finaux, mais plutôt des personnes qui sont chargées de faire de la préparation, de la vérification et parfois qui se font passer pour des intelligences artificielles.
Comment cela est-il connecté aux données personnelles ? Tout simplement parce qu’il y a beaucoup de travail de vérification, d’entraînement et de correction qui se fait sur des données à caractère personnel. Un exemple classique étant bien évidemment les assistants vocaux qui, comme on a pu s’en apercevoir en 2019, enregistraient des gens à leur insu. Ces enregistrements étaient collectés, constitués en grandes, très grandes bases de données et des travailleurs humains étaient chargés de faire de l’annotation là-dessus. Ça pose problème lorsqu’on est, par exemple, une agence de protection des données et qu’on constate qu’il n’y a pas de consentement, qu’il n’y a pas de base légale à ce genre de collecte et que les données à caractère personnel sont parfois très personnelles – des noms, des adresses, des numéros de sécurité sociale, ce sont des exemples parmi d’autres et cela peut aussi concerner des enfants. D’ailleurs, en 2020, la CNIL l’avait bien identifié et avait publié un livre blanc [2] pour essayer d’expliquer aussi à un public beaucoup plus large en quoi consistait ce travail d’entraînement et de correction des assistants vocaux.
Voilà comment je justifie un peu ces trois termes pour la présentation d’aujourd’hui et voilà à quoi ça va ressembler.
Dans un premier temps, je vais vous parler de la théorie de la régulation, ensuite, dans un deuxième temps, à partir des éléments théoriques que j’aurais essayé de mettre en place, je voudrais parler de la régulation de l’intelligence artificielle et pourquoi, à mon avis, le RGPD [Règlement général sur la protection des données] [3] et les agences de protection des données sont centrales dans ce régime de régulation et enfin, dans un troisième temps, j’aimerais parler du rôle et de la place des travailleurs de l’intelligence artificielle en Union européenne dans ce régime de régulation.

La théorie de la régulation

Qu’est-ce que la théorie de la régulation ?
Je vous assure que je vais essayer d’être très concis, les citations sont parfois un peu verbeuses mais disons que l’idée c’est qu’il faut comprendre que ce que je propose ici c’est une perception un petit peu décalée de ce qu’est la régulation. La régulation, ça n’est pas simplement le rôle de la CNIL, ça n’est pas simplement le rôle de l’État, ça n’est pas simplement le rôle du régulateur. Par exemple, lorsqu’on emploie le terme « institution » ici, ça ne veut pas dire exclusivement les institutions de l’État, ça veut dire les acteurs qui se mettent d’accord, ensemble, pour déterminer un état de fait, un régime de production, un régime de régulation. Ça veut donc dire que sont impliqués également, par exemple, des entreprises privées et qu’il y a, au final, des sortes de compromis, des pactes, des choses qui sont acceptables et des choses qui ne le sont pas et cela évolue de manière dynamique avec le temps.
« L’étude de la régulation ne peut pas être la recherche de lois économiques abstraites, c’est l’étude de la transformation des rapports sociaux qui reproduisent une structure déterminante, le mode de production », c’est à peu près ce que je viens de vous dire. Ça veut dire qu’il y a des modes de régulation, un mode de régulation général, ce sont les grands ensembles de rapports sociaux, et des modes de régulation sectoriels où on parle, par exemple, de la protection des données ou, par exemple, de l’intelligence artificielle.
Je justifie l’emploi de cette expression par exemple avec les recherches qui ont été produites par Anne Bellon et Pierre France [Le moment régulateur : Naissance d’une contre-culture de gouvernement]. Ils expliquent, par exemple, que la CNIL se trouve elle aussi dans un champ de la régulation et qu’en regardant l’histoire de la CNIL depuis sa création dans les années 70 jusqu’à aujourd’hui, il y a à peu près trois grandes phases, une première phase dite de la CNIL militante jusqu’à la phase actuelle qui est son intégration dans un champ de régulation européen, c’est-à-dire que la CNIL doit s’associer, travailler en réseau avec les autres agences de protection des données européennes. Par conséquent, à la fois son objet de régulation qui était au départ l’État et les politiques publiques, qui devient ensuite les entreprises privées, et son mode d’action, évoluent.
Cela veut dire qu’on pourrait même se représenter le champ de la protection des données personnelles comme quelque chose qui ressemble à un champ à la Bourdieu. Qu’est-ce qu’un champ ? Je vais vous proposer une définition extrêmement simple, extrêmement basique, c’est un espace de prise de positions. En fait, c’est une représentation spatiale d’un espace social où on a des agents, des institutions, qui sont engagés autour d’un même sujet, d’un même objet, qui reconnaissent leurs rôles relatifs à cet objet et qui prennent position parfois en opposition, parfois en coopération les uns avec les autres, qui se retrouvent donc à avoir des degrés d’influence divers là-dedans.
On pourrait même se poser la question : est-ce que c’est un champ économique ? Un champ économique est politiquement construit à différents niveaux, du plus global au plus local, c’est important aussi pour ce que je vais dire par la suite. Pourquoi parler de champ économique ? Parce que c’est une activité de production, une activité de production qui est régulée.

La question qui se pose maintenant c’est celle du régime de régulation des données personnelles.
Au tout départ de mes recherches, j’avais beaucoup fait référence à ce travail d’Ido Sevan-Sevilla, que vous avez déjà reçu ici, qui montrait qu’il y a différents styles de régulation de la part des agences de protection des données, ce qui était en soi, pour moi, une interrogation importante, au moins d’un point de vue théorique, puisque les agences de protection des données, en Union européenne, sont toutes fondées sur le même texte, le RGPD, donc sur le principe, au moins sur le papier, elles sont censées agir exactement de la même manière lorsqu’elles constatent la même violation ou lorsqu’elles ont à traiter le même dossier, ce qui n’est pas vraiment le cas. La constatation que fait Ido Sevan-Sevilla c’est qu’il y a des différences à la fois du point de vue du nombre d’enquêtes qui sont menées et, à la fois, du nombre de sanctions qui sont prises. Ça veut donc dire qu’il y a un régime particulier, qu’il y a un espace spécifique aux agences de protection des données dans lequel elles prennent des décisions différentes de ce que devrait être la régulation des données personnelles, donc de ce que doit être le RGPD. C’est aussi pour cela que l’harmonisation est un enjeu central du point de vue de la protection des données personnelles en Union européenne.
En gros, pour moi, l’idée c’est de dire qu’on a bien un régime de régulation des données personnelles, ce régime est caractérisé par le RGPD. D’un point de vue pratique, il est mis en œuvre par les agences de protection des données. Ces agences de protection des données évoluent dans un environnement européen où elles sont obligées d’être en relation les unes avec les autres et puis aussi avec leur environnement plus largement.

Régulation de l’intelligence artificielle

Quel rapport avec l’intelligence artificielle ? En quelque sorte, c’est peut-être aussi un peu ça la question, même si, évidemment, à la CNIL vous travaillez déjà pas mal sur ces questions-là, il faut aussi le justifier du point de vue de mes recherches.
Tout simplement parce que le règlement sur l’IA reconnaît lui aussi la prévalence du RGPD et du rôle des agences de protection des données. Vous avez les considérants 10 et 69 du Règlement sur l’IA [4] qui expliquent que le RGPD a toujours une prévalence, que les systèmes d’intelligence artificielle doivent toujours être respectueux de la protection des données et la vie privée des personnes, etc.
C’est aussi pour cela que le régulateur des données personnelles s’est approprié ce sujet.

Comment cela se passe-t-il au niveau de la CNIL ?
J’aime bien cette citation d’Anne Bellon qui, apparemment, avait été témoin d’un échange qu’elle qualifie de houleux entre la CNIL et un membre de La Quadrature du Net [5]. Le membre de la CNIL aurait dit : « On est du même côté en fait. Pour qu’on parvienne à faire plus, ils feraient mieux de nous soutenir pour qu’on obtienne des moyens supplémentaires, ça ne sert à rien de nous décrédibiliser. » Pourquoi ? Parce que La Quadrature du Net a effectivement un rapport avec la CNIL qui n’est pas forcément toujours facile et lui reproche de ne pas en faire assez. À mon avis, et ce n’est pas qu’à mon avis, c’est aussi ce que dit Anne Bellon, c’est qu’il y a aussi des légitimités extérieures à la CNIL auxquelles elle doit faire appel. Elle doit aussi justifier de son rôle de défenseur d’un certain nombre de droits fondamentaux.
On pourrait même, dans un premier temps, de manière très schématique se représenter l’espace de la CNIL comme quelque chose de cet ordre-là, c’est évidemment un peu caricatural : d’un côté, vous avez des gens qui sont très à cheval sur la protection des données et, de l’autre, vous avez des entreprises comme Meta qui sont arc-boutées sur l’idée qu’il faut absolument qu’on leur laisse utiliser les données personnelles de leurs utilisateurs un peu comme elles veulent. Il faut aussi que la CNIL se positionne par rapport aux autres agences de protection des données qui ont des perceptions différentes de ce que doit être le RGPD et son application.
Tout en bas, vous avez l’agence irlandaise de protection des données et tout en haut l’EDPD [European Data Protection Board]. J’ai pris cela comme des exemples un peu au hasard, peut-être pas tant que ça !

Du coup qu’est-ce que ça veut dire ?
Si on commence à se représenter le champ de la production des intelligences artificielles et son espace de régulation un peu à la Bourdieu, à ce moment-là il faut représenter un espace avec des capitaux différents. C’est un travail qu’il faut que je finisse de défricher, c’est un peu l’objet de la thèse qui consiste à questionner quel genre de capital permet de situer ces acteurs les uns par rapport aux autres.
Je postule l’idée qu’il y a un capital technique qui est spécifique à ce champ, c’est-à-dire un ensemble de compétences qui vous permettent de créer des systèmes d’IA, des LLM [Large language Model], ce genre de choses, mais aussi un capital technique du point de vue des compétences légales, parce que je pense que c’est un des deux grands enjeux de ce champ. Je considère aussi que c’est un espace où la régulation des données personnelles est centrale.
Vous avez les logos, en bas à gauche, et la question c’est comment on les met-on ici. Ma proposition, pour l’instant, c’est cela :
les agents qui ont le plus de capital symbolique et économique et le plus de capital technique à la fois sont Alphabet, Meta, OpenAI, qui ont une influence et des moyens quand même très importants par rapport à d’autres ;
à contrario, La Quadrature du Net, même si elle dispose d’un capital technique qui n’est pas ridicule du point de vue des compétences légales, je ne suis pas sûr qu’elle soit très très bien placée à la fois du point de vue de ses moyens économiques et symboliques ;
et puis, en haut à gauche, vous avez les législateurs français et européens qui, à mon avis, n’ont pas un capital technique très développé mais qui disposent quand même d’un capital symbolique et/ou économique relativement important puisque ce sont eux aussi qui déterminent et qui donnent les lois, donc qui structurent au moins partiellement le champ.
J’ai mis au milieu, comme un espace à part entière, comme un espace dans cet espace, un champ plus ou moins autonome mais aussi dépendant de ce champ-là, celui des agences de protection des données, parce que, à mon avis, il y a des rapports d’influence qui vont de cet espace interne des agences de protection des données vers l’extérieur et, dans l’autre sens, des rapports d’influence de l’extérieur vers l’intérieur. Comment je justifie cela ? Par exemple avec la tournée de Sam Altman, en 2023, qui avait rencontré un certain nombre de chefs d’État en Union européenne, qui avait cherché à faire modifier le règlement sur l’IA, l’AI Act [6], ce genre de choses.
On a plus récemment, très récemment d’ailleurs, tout ce qui relève de la décision finale de Meta de commencer à utiliser les données personnelles des personnes qui habitent en Union européenne pour faire de l’entraînement de ses modèles d’IA, une décision qui avait été mise en pause l’année dernière et puis, finalement, ils ont fini par dire « on a le feu vert des agences de protection des données », ce qui n’a pas tout à fait l’air d’être le cas. La réaction des agences de protection des données, y compris de la CNIL, a consisté à dire aux utilisateurs « il y a un opt-out, si vous ne voulez pas que vos données soient utilisées, faites usage de cet opt-out le plus rapidement possible. » Pour moi, c’était un assez bon indicateur de la manière dont ce champ se structurait, le champ de la production des systèmes d’intelligence artificielle, de leur régulation, du pouvoir relatif que pouvait avoir à la fois les agences de protection des données et les entreprises privées.
Un autre exemple sur la volonté plus ou moins affichée de certaines agences de protection des données de structurer ce champ, c’est la décision du Garante per la protezione dei dati personali, en Italie, qui a prononcé une amende contre OpenAI en 2024 [7], qui avait déjà essayé un moratoire en mars 2023, qui n’a tenu qu’une dizaine de jours, je crois qu’au départ le moratoire devait durer trois mois. Là aussi, c’est aussi un indicateur des rapports de force qui existent dans ce champ.
Un dernier exemple de la manière dont l’intelligence artificielle et la protection des données personnelles vont de pair, ce sont les plaintes qui ont été publiées par l’association autrichienne NOYB, None Of Your Business [8], qui fait, on pourrait dire, du contentieux stratégique, qui dépose des plaintes auprès de tout un tas d’agences de protection des données en Union européenne. Elle en a déposé deux : une première en août 2024, il me semble, qui consistait à dire, en gros, qu’il n’y a pas de droit de rectification lorsque vous utilisez ChatGPT, ça veut donc dire, par définition, que ce système est contraire au RGPD, donc on porte plainte contre OpenAI là-dessus. Et puis une deuxième plus récente, qui date de quelques mois à peine, avec un exemple très concret d’une personne, un Norvégien, qui était en train d’utiliser ChatGPT, qui lui avait demandé « qui suis-je ? ». Le robot conversationnel avait répondu « Monsieur X qui a tué deux de ses enfants et a tenté de tuer le troisième », ce qui s’avérait complètement faux. Cette histoire a fait pas mal le tour des médias et a permis à NOYB de déposer une deuxième plainte.
Disons que ces exemples-là montrent à peu près un certain nombre des acteurs que je vous ai mis, leur structuration, leur positionnement dans ce champ, en fait la position qu’ils prennent vis-à-vis du droit, de ce qui est acceptable ou non du point de vue de l’utilisation des données à caractère personnel pour de l’entraînement d’intelligences artificielles.

Les travailleurs de l’IA en UE

Sauf qu’il y a quand même, à mon avis, quelqu’un, un acteur extrêmement important dans ce champ qui est hors-champ, ce sont les travailleurs de l’intelligence artificielle.
Dans mon cas, pour mon projet de recherche, j’ai décidé de rester uniquement dans les frontières de l’Union européenne puisque ça permet de dire qu’il y a un cadre légal unifié, il y a un système de régulation qui passe par les agences de protection des données, donc quel est le rôle, quel est l’espace dans ce régime de régulation des travailleurs de l’intelligence artificielle ?
J’imagine qu’un certain nombre d’entre vous ont déjà vu cette illustration [9] qui vient d’un des premiers articles qui ont, entre guillemets, « révélé » au grand public l’existence du travail d’entraînement d’intelligences artificielles, du micro-travail, du travail avec beaucoup d’exploitation. Ici, c’est l’exemple des travailleurs kényans, très mal payés à faire du travail qui pourrait avoir des conséquences extrêmement sérieuses sur leur santé, puisque sont associés des risques psychologiques et psychosociaux importants, notamment lorsqu’il s’agit de modération de contenus. Il ne s’agit pas uniquement d’accompagnement et d’entraînement d’algorithmes de reconnaissance de contenus violents, sexuels ou contrevenants aux indications d’une plateforme comme Facebook, il s’agit aussi d’un entraînement de LLM. Les mêmes travailleurs de Samasource, au Kenya, à proximité de Nairobi, étaient dans des hangars pratiquement côte à côte, il y avait ceux qui faisaient de la modération de contenus pour Meta et ceux qui faisaient de la modération de contenus pour OpenAI.

J’ai l’impression, pour ce que j’en ai vu, qu’il y a, selon les agences de protection des données, deux grands points de friction entre le RGPD et la production de systèmes d’intelligence artificielle.
Le premier c’est tout ce qui relève de la collecte des données en amont à des fins d’entraînement, donc le scraping de masse, ou bien vous travaillez dans une boîte, dans une entreprise qui a mis en place un système d’intelligence artificielle et on vous dit, du jour au lendemain, « on va commencer à utiliser les données pour faire de l’entraînement d’intelligence artificielle ». C’est, par exemple, Doctolib. Doctolib a modifié, relativement récemment, sa politique de confidentialité et ses conditions générales d’utilisation en disant « maintenant vous pouvez faire un opt-out, il y a un certain nombre d’informations qui relèvent de votre compte, que nous allons utiliser pour entraîner des modèles d’IA. » Ils ne disent pas forcément à quoi ça sert, je crois que l’idée c’est un peu de créer un peu une sorte d’assistant médical pour vous accompagner, peut-être éventuellement assister des médecins dans des téléconsultations, peut-être même essayer de les remplacer, qui sait !
Le deuxième grand point de friction serait la collecte des données pendant l’interaction et c’était, en fait, l’objet du premier moratoire qu’avait prononcé le Garante qui disait que les gens ne sont pas vraiment informés, les utilisateurs de ChatGPT ne sont pas très bien informés de la manière dont OpenAI collecte vos données personnelles lorsque vous interagissez avec le robot conversationnel.
Ça serait donc au moment de l’entrée, au moment de l’entraînement, au moment de l’interaction avec ces systèmes qu’il y aurait deux grands problèmes en fait, des points sur lesquels doit se pencher le régulateur.

Ma proposition, ma suggestion, c’est qu’il y en a un troisième. Il faut regarder cela du point de vue de la structure, de la manière dont est organisé le travail d’entraînement et de supervision des systèmes d’intelligence artificielle.
Je reprends ce visuel de Florian Schmidt qui fait un parallèle entre les différentes couches de réseaux neuronaux artificiels et la manière dont est structuré le travail, au niveau planétaire, pour organiser tout le travail d’annotation des données.
Vous avez, tout en haut, client input, ce serait par exemple Alphabet, ce serait Meta qui a besoin de faire annoter une base de données avec, par exemple, 10 000 heures, je dis quelque chose au hasard, de voix, d’audio. Ils vont déléguer la tâche à quelqu’un au sein de l’entreprise qui va trouver un sous-traitant, qui va être par exemple une plateforme, qui va elle-même engager des travailleurs temporaires, des travailleurs dits ou présumés autonomes, de la même façon qu’Uber engage des chauffeurs, qui vont se charger de faire cette annotation-là, ça peut être aussi des entreprises qui sont chargées de la sous-traitance. Ces systèmes-là font parfois le tour de la planète, ce sont des systèmes complexes, des chaînes globales de valeur qui vont d’un continent à l’autre. Le client, par exemple, se trouve aux États-Unis, il passe un contrat avec un sous-traitant au Kenya, le sous-traitant au Kenya peut éventuellement faire travailler des gens sur place ou bien signer à nouveau un contrat avec une autre boîte et vous vous retrouvez avec des accords qui font États-Unis, Japon, trois ou quatre autres pays, et puis vous vous retrouvez avec des gens qui font de l’annotation de données en Espagne, à Barcelone par exemple.
Peut-être, juste pour vous donner une idée de la masse que ça représente. Une étude de la banque mondiale, en 2023, dit que ça pourrait représenter jusqu’à 12,5 % de la masse totale des travailleurs, de la masse planétaire des travailleurs, donc pratiquement un travailleur sur huit serait, sera ou a été un travailleur de plateforme à un moment donné. Bien évidemment, dans ce contingent, il y a une augmentation des personnes qui sont chargées de faire de l’annotation de données à caractère personnel.

Pourquoi est-ce que ça concerne l’Europe ? Parce qu’en Europe, en Union européenne aussi nous avons des travailleurs de plateformes qui sont chargés de faire de l’annotation de données pour entraîner des intelligences artificielles, parfois des données à caractère personnel, j’en interviewe, j’ai déjà eu l’occasion d’apprendre des choses de cet ordre-là.
À quoi ça ressemble ? C’est du travail de préparation pour générer ou annoter des données, de la vérification : on constate quelle est la sortie d’un système, d’un LLM par exemple, et puis on le corrige. Par exemple en 2022/2023, des articles de presse disaient « vous pouvez demander la recette d’un cocktail Molotov à ChatGPT, il va vous la donner. » Eh bien il faut corriger cela. Pour corriger, on passe par du Reinforcement Learning from Human Feedback, RLHF.
Et enfin, des gens se font passer pour des systèmes d’IA. C’était par exemple le projet d’Amazon, il me semble, qui consistait à dire « maintenant on va créer des magasins dans lesquels vous entrez, vous prenez des choses et puis vous sortez et vous n’avez pas besoin de passer à la caisse, tout cela sera automatisé. On va vous reconnaître, on va identifier qui vous êtes et puis on va savoir ce que vous avez pris et ce sera super simple, super pratique. » C’était au premier semestre 2024 et ils ont laissé tomber au moment où l’information est sortie. On a aussi appris que les magasins où l’expérimentation avait lieu faisaient l’objet d’une surveillance constante de la part d’environ un millier de travailleurs en Inde qui étaient chargées d’identifier les personnes, de les suivre à la trace, de voir ce qu’elles étaient en train de mettre dans leur panier à chaque fois.
Il y a régulièrement des exemples comme ça, il en est sorti encore très récemment dans la presse, le mois dernier, avec des gens qui proclament avoir des solutions dites d’IA à proposer, qui, en fait, s’avèrent être des dizaines, parfois des centaines de travailleurs, parfois à l’autre bout de la planète.

Je voulais juste faire une petite incise pour dire qu’on a également publié un mémo, dans mon groupe de recherche, sur DeepSeek [10]. Ce n’est pas juste du travail dit de supervision, c’est-à-dire le travail d’entraînement à priori, c’est aussi du travail à posteriori, du travail dans le domaine du reinforcement learning. DeepSeek est aussi un cas intéressant parce que c’est la Chine, on n’en parle pas beaucoup en Union européenne, on ne sait pas trop comment ça se passe, mais, en gros, on peut déjà dire que malgré le fait qu’il y a une organisation politique, sociale et économique différente, ils font, eux aussi, appel à du travail d’annotation de masse. Quand bien même DeepSeek prétendrait n’avoir fait appel qu’à 31 annotateurs de données, c’est une affirmation qui semble un peu aberrante aux yeux de ce que l’on constate concrètement.

On aurait donc, d’après cette proposition, trois grandes zones de friction entre l’intelligence artificielle et le RGPD, la troisième zone de friction étant le moment de l’annotation, que ce soit pour de l’entraînement ou pour du renforcement de ces systèmes d’IA.
C’est aussi quelque chose qui a déjà été identifié par la CNIL. J’avais suivi un webinaire en 2024, c’était l’une des premières moutures, il me semble, l’une des premières présentations des fiches pour l’IA sur la mise en conformité RGPD lorsque vous voulez développer des systèmes d’IA. Il y avait bien là, cachée, une fiche sur l’annotation des données « pour vous mettre en conformité, vous devriez suivre les indications de la CNIL au moment où vous demandez à des travailleurs de faire de l’annotation de donnée pour des intelligences artificielles. » À ma connaissance, et je ne suis pas ici pour faire l’apologie de la CNIL, il n’y a que la CNIL qui a fait ce travail et qui reconnaît ces travailleurs pour l’intelligence artificielle jusqu’à présent.

C’était le champ initial que je vous ai proposé, un peu assez maladroit, au moins pour l’instant, parce que, de toute façon, il y a beaucoup d’acteurs et beaucoup d’agents qui ne sont pas représentés ici pour l’instant. J’avais fait exprès de laisser de côté, au moins pour le moment, les travailleurs de l’intelligence artificielle. Remontsks [11] est une des plateformes par lesquelles passent les clients finaux, par exemple Alphabet ou Meta, pour être mis en relation avec ces travailleurs d’annotation des données. Nécessairement, ce sont des acteurs qui sont positionnés dans ce champ et, selon moi, il y a un grand défaut de reconnaissance de ces travailleurs dans ce champ, qui devraient, par leur rôle crucial, être davantage reconnus et jouer un rôle plus important pour ce qui relève du régime du régime de régulation de l’intelligence artificielle et de la protection des données plus généralement.

Quelques exemples d’annotation des données pour des LLM

Je voudrais conclure par quelque chose d’un peu plus léger, on va dire, parce que j’ai quand même fait beaucoup de théorie. Je vais vous montrer quelques exemples concrets de ce que j’ai pu apercevoir en faisant mes entretiens avec des travailleurs d’entraînement des intelligences artificielles en Union européenne, des tâches qu’ils ont pu accomplir, qu’ils ont à accomplir à l’heure actuelle. C’est quand même quelque chose de très concret et je pense que c’est intéressant pour cela. Des exemples d’annotation de données pour des LLM.

Le premier exemple que je vais vous montrer c’est celui d’écriture créative. On leur demande, dans un premier temps, de construire un prompt sur un sujet dont ils sont spécialistes, souvent, et ensuite d’écrire la réponse et il faut que ça soit la meilleure réponse possible. C’est une des choses qu’on fait lorsqu’on fait du travail d’entraînement d’intelligence artificielle.

Un autre exemple, c’est la comparaison de modèles. On vous dit « soit vous créez un prompt, soit vous lisez la requête » et vous avez deux réponses différentes. On ne vous dit pas quels sont les deux modèles que vous êtes en train de comparer, mais on vous dit quelles sont les rubriques à partir desquelles vous devez comparer les deux modèles et il faut que vous disiez « la réponse A est bien meilleure » ou « la réponse B est bien meilleure » ou « les deux sont équivalentes » et il faut que vous fassiez une justification très longue. C’est aussi un peu curieux parce que c’est une sorte d’intégration de la subjectivité de ces travailleurs dans une réponse standardisée de ces grands modèles de langage et ce n’est pas le cas juste pour ChatGPT, on l’observe pour les modèles développés par Alphabet, pour Grok xAI. Ils y sont tous, ils sont tous là.

Un troisième exemple qui, je pense, pourra vous sembler éventuellement un peu plus rigolo. L’objectif c’est de faire en sorte que vous réussissiez à faire que le modèle se trompe. Par exemple, vous demandez à des gens qui sont doués, compétents en mathématiques ou bien en chimie, de parvenir à faire en sorte que ChatGPT se trompe, je prends toujours ChatGPT parce que c’est l’exemple dont on parle toujours le plus.
L’un des exemples classiques, pas sur des maths : vous demandez à ChatGPT combien il y a de « r » dans fraises, en anglais strawberries , et vous vous retrouvez avec des réponses qui n’ont aucun sens, parfois il vous dit cinq, parfois il vous dit deux, parfois il vous dit un, alors que quand on est un humain, qu’on sait compter et à peu près lire l’anglais, la réponse n’est pas si compliquée que ça. Donc vous demandez à des gens de faire en sorte que le modèle se trompe un maximum, autant que possible.

Voilà quelques exemples où vous lui posez votre question de mathématiques, vous lui posez une colle, et vous essayez de faire en sorte d’identifier où est le problème : est-ce que c’est un problème de raisonnement, est-ce que c’est un problème de mathématiques ? Etc.

Dernier exemple, très intéressant aussi il me semble, la production de données personnelles. Pour le coup, en ce moment des gens sont payés à créer des enregistrements de conversations par exemple entre deux personnes, dans des environnements plus ou moins bruyants, qu’il faut également annoter : il faut faire l’annotation et dire « l’environnement est très bruyant, l’environnement n’est pas du tout bruyant ».
Je voulais aussi vous signaler le fait que lors de la deuxième étape de ce travail d’enregistrement on vous demande de vous prendre en vidéo et on vous dit « s’il vous plaît, faites de votre mieux pour éviter de capturer, dans votre vidéo, des visages identifiables ou les voix d’autres personnes. » C’est une préoccupation majeure, en fait, pour ces plateformes et pour ces clients, d’essayer d’éviter de continuer à collecter des données personnelles d’autres personnes. Comme c’est de la pêche au filet dérivant, tout le monde peut se retrouver pris à un moment ou un autre, donc je crois que c’est un problème majeur et c’est aussi un problème majeur du point de vue de la régulation.
On leur demande aussi de qualifier les catégories, etc., je passe très rapidement.

Vers la fin du travail d’entraînement des IA ?

Je voulais simplement prendre les devants, puisque c’est une question que nous avons abordée rapidement, qui est : est-ce qu’on va arriver vers la fin de ce travail d’annotation, ce travail d’entraînement des intelligences artificielles ? Au final, peut-être y aura-t-il bien un moment où ces LLM arriveront d’eux-mêmes à se corriger, parce que tout cela c’est un travail temporaire. C’était un travail temporaire en 2019 lorsque je l’ai fait, c’est toujours un travail temporaire en 2025, et probablement que dans deux ans on nous annoncera la fin de ce travail pour 2028 ou pour 2029, etc.
Il y a deux réponses scientifiques, on va dire, qui ne relèvent pas de mon domaine de recherche, je ne suis pas compétent là-dessus, qui ont tendance à faire penser que non, ce travail ne va pas vraiment disparaître.
La première c’est qu’il n’y a pas de reversivité [traduction de reversal, NdT]. Cet exemple, qui est donné dans The Guardian, qui cite évidemment un article de recherche, consiste à dire : lorsque vous demandez à une intelligence artificielle « qui est la mère de Tom Cruise ? », ChatGPT ou le LLM va pouvoir vous répondre. Par contre, disons qu’elle s’appelle Jeanine, si vous demandez « qui est Jeanine Machin ? », vous savez que c’est la mère de Tom Cruise, le modèle ne va pas pouvoir vous répondre, ne va pas pouvoir vous dire « c’est la mère de Tom Cruise », il n’y a pas de reversivité : si vous avez le lien de A à B, le modèle ne va pas pouvoir vous mettre en évidence, de lui-même, le lien de B à A.
L’autre problème, un très gros problème, c’est celui des données. Il y a un moment où la qualité des données pose problème et la proposition de les remplacer par des données synthétiques donne une perte de qualité et une perte de diversité dans la capacité des modèles de production par exemple d’images.

J’espère avec ça, avoir un peu justifié l’objet de la démarche de mon projet de thèse qui consiste à faire le lien entre les agences de protection des données et les travailleurs de l’entraînement d’intelligences artificielles en Union européenne.

La reconnaissance des travailleurs de l’IA : un angle mort des agences de protection des données ?

Très rapidement, je voudrais simplement faire remarquer que je fais des entretiens avec des travailleurs de l’entraînement des données, je fais des entretiens avec des ONG, par exemple NOYB, et aussi avec des membres d’agences de protection des données, ce qui, malheureusement, s’avère très difficile. J’ai fait trois pays jusqu’à présent et, dans les trois pays, on m’a dit non aux entretiens. Je le souligne en rouge, ici, parce que c’est vraiment un problème pour moi. Je suis venu ici aussi dans l’idée de demander un peu d’aide à la CNIL et aux agents qui font partie de ce régime de régulation en France, pour leur demander s’ils veulent bien faire des entretiens avec moi pour m’expliquer comment ça se passe chez eux. Vous pouvez m’écrire à l’adresse mail suivante [thomas.lebonniec chez ip-paris.fr] si vous le souhaitez. Le PDF de cette présentation sera disponible dans les jours prochains et il y a une bibliographie complémentaire en conclusion de cette présentation.

[Applaudissements]