IA, Biais cognitifs et discriminations : les angles morts de nos algorithmes IA Ethique Insider

Découvrez comment les préjugés humains s’infiltrent dans nos systèmes d’IA et apprenez les stratégies concrètes pour créer des technologies plus éthiques et équitables.

Daphnée Lucenet : Bienvenue dans IA Ethique Insider [1], l’émission qui explore les tensions, les opportunités d’une intelligence artificielle au service du vivant et du bien commun.
Chaque mois, je vous propose des conversations franches, critiques et éclairantes, avec des chercheurs, des leaders du privé et des esprits engagés. Ensemble, on décrypte les angles morts de l’IA, ses implications éthiques, les biais systémiques, la transparence, la durabilité, justice sociale, pouvoir des plateformes, etc.
Je suis Daphnée Lucenet.
Si cette initiative vous aide à y voir plus clair dans la jungle de l’IA, pensez à vous abonner, à laisser un commentaire sur votre plateforme préférée et à partager autour de vous.
C’est parti pour l’épisode du jour.

Aujourd’hui, je reçois mon amie Céline [Delaugère] pour parler d’un sujet très important dans l’intelligence artificielle et pourtant encore trop peu couvert, nous allons parler des biais cognitifs et de la discrimination dans l’IA. Nous allons essayer de comprendre comment se déroule une stratégie data IA, comment la mettre en place concrètement au sein d’entreprises et faire en sorte d’éviter ce genre de biais cognitif et limiter au maximum les discriminations, nous allons voir que ce n’est pas si simple que ça. Nous allons réfléchir à comment intégrer une approche éthique dès le début, dès la conception des solutions IA.
Pour parler de cela, nous avons une experte, Céline, je te laisse te présenter en quelques mots.

Céline Delaugère : Ravie d’être avec toi aujourd’hui, Daphnée.
Je suis Céline Delaugère. Ça fait bientôt dix ans que je m’intéresse au sujet de l’IA et je suis une entrepreneure dans le secteur de l’IA et de la data. Je suis la cofondatrice et CEO [Chief Executive Officer] de My Data Machine [2]. J’aide les entreprises à développer des cas d’usage d’intelligence artificielle, je les aide sur différents aspects notamment la donnée mais aussi la stratégie plus globale, comment arriver à des cas d’usage avec succès et à déployer des cas d’usage à grande échelle. Je suis aussi membre du think tank de l’Observatoire de l’Intelligence artificielle [3]. Notre mission c’est d’éclairer et d’acculturer le débat public sur les sujets d’intelligence artificielle, de données, la souveraineté, mais aussi les biais, la diversité.

Daphnée Lucenet : Super intéressant, merci. C’est hyper pertinent de t’avoir aujourd’hui pour parler de ces sujets-là, parce que tu as vu l’IA en tant qu’entrepreneure et maintenant tu accompagnes aussi des entreprises dans leur stratégie data IA. C’est vraiment très chouette de parler des solutions qu’on va pouvoir mettre en place pour éviter tout cela et on va voir que ce n’est pas si simple que ça, ce n’est pas si binaire, qu’il faut vraiment être proactif dans la démarche et, je dirais, sur le qui-vive.
Pourquoi a-t-on choisi ensemble ce sujet sur les biais et les discriminations ? Déjà, je pense que c’est un sujet qui te tient à cœur.
Nous sommes parties des travaux du MIT, que tu m’avais partagés, qui traitent des principaux risques liés à l’IA [4], je mettrai le lien vers la source dans les descriptions. C’est un document vraiment hyper pertinent et mis à jour. On a donc ce framework, qui définit les risques liés à l’IA, et on voit que 14 % des risques sont liés à la toxicité et la discrimination, c’est donc énorme en fait sur la totalité des risques et c’est une des catégories les plus importantes en matière de risques liés à l’IA, aux côtés de la sécurité des systèmes, des impacts socio-économiques et aussi des usages potentiellement malveillants. C’est un gros sujet et on se rend compte que, malgré cela, c’est un sujet qui bénéficie d’une attention académique hyper faible.
Tu m’as aussi partagé une super thèse, un travail vraiment important qui a été fourni par le docteur Abeba Birhane, qui s’appelle Automating Ambiguity : Challenges and Pitfalls of Artificial Intelligence [5]. Elle a été soumise en octobre 2021, elle soulève énormément de points et je pense que pas mal de nos discussions vont aussi faire référence à cette thèse. Dans son document de recherche, elle faisait une analyse sur la recherche liée au machine learning. Elle relevait que les discussions autour des préjudices potentiels sociétaux étaient très peu abordés et que la plupart des papiers sur le machine learning parlent de la façon dont sont atteints les objectifs internes et techniques ; 71 % de ces papiers ne font aucune mention de l’impact sociétal et des besoins et seulement 3 % s’efforcent de présenter les liens avec les besoins sociétaux, ce qui n’est vraiment pas beaucoup, d’où l’intérêt d’en parler ensemble aujourd’hui. Le problème c’est aussi qu’on se rend compte que ces biais et discriminations – il y a eu pas mal de scandales dont on parlera un peu plus tard –, ne diminuent pas nécessairement, en tout cas dans le cas de l’IA générative, puisque, apparemment, on aurait encore plus de biais en passant de GPT-3.5 turbo à GPT-4 et GPT-4 turbo. En fait, même si on sort de nouveaux modèles plus performants, parfois ils le sont beaucoup moins sur le côté social et sociétal.
Nous allons voir ensemble l’impact social des biais et discriminations. On commence par la définition qui est assez intéressante.

Un biais, d’après le Larousse, première définition, une définition plus mathématique et scientifique, c’est un moyen indirect et habile pour résoudre une difficulté.
La deuxième définition, celle du biais cognitif : il s’agit d’un préjugé positif ou négatif ou d’une conclusion hâtive qu’une personne a envers une autre personne ou un groupe de personnes ou une situation sans avoir toute l’information pertinente.
Tu nous expliqueras un petit peu plus tard tous les tenants et aboutissants des stratégies d’intelligence artificielle et comment on déroule tout ça. En fait, c’est inhérent à la discipline de l’intelligence artificielle.

Deuxième chose sur la discrimination.
Première définition : c’est une action de séparer, de distinguer deux ou plusieurs êtres ou choses à partir de certains critères ou caractères distinctifs, encore une fois tu nous expliqueras un petit peu comment ça se retrouve par essence dans l’intelligence artificielle.
Deuxième définition : c’est le fait de distinguer et de traiter différemment, le plus souvent mal, quelqu’un ou un groupe par rapport au reste de la collectivité ou par rapport à une autre personne.

On voit que les définitions de biais et discrimination sont complètement inhérentes au fonctionnement des IA sous toutes leurs formes.

Céline Delaugère : C’est super intéressant de revenir aux définitions, parce que ce sont des mots qu’on entend beaucoup et, parfois, même détachés de la définition. Finalement, associer tout de suite des concepts ou des exemples dont on a beaucoup entendu parler mais sans vraiment se poser la question : à l’origine, qu’est-ce que c’est en fait ?

Daphnée Lucenet : C’est clair. Du coup, on se rend compte que c’est évident qu’on retrouve des biais et de la discrimination par nature, mais il y a peut-être des solutions pour essayer de contenir ces dérives. On dit souvent que ça a un impact négatif et disproportionné sur les femmes, les minorités ethniques et sur des communautés plus vulnérables et en marge. Tu me disais aussi que, d’après toi, ça va même encore au-delà de cela.

Céline Delaugère : Justement, je trouve intéressant que tu parles de ça. En fait, quand on pense aux biais, on pense tout de suite au fait que ça peut discriminer les populations minoritaires.
Les biais qu’est-ce que c’est ? C’est finalement le fait qu’en entraînant une intelligence artificielle, les cas un peu minoritaires, donc les cas qui ne rentrent pas dans le cas général, vont, parfois, ne pas être pris en compte de la bonne façon. C’est comme si ces cas-là étaient des cas particuliers.
Il faut comprendre que l’intelligence artificielle est entraînée sur des données. Parfois, il s’agit de l’entraîner sur des données qui vont avoir un rapport au comportement humain, mais finalement, dans tous les cas d’usage de l’IA, on peut retrouver ce genre de problème sur différents aspects, ça ne va pas être que sur les minorités des humains, ça peut être reconnaître un chat d’un chien ; on retrouve ça sur toutes les IA, d’où la question : comment fait-on pour éviter ça à la fois sur des cas où ça va toucher et discriminer des gens, mais aussi, finalement sur toutes les intelligences artificielles qu’on va développer pour qu’elles prennent en compte vraiment même les out players, même les cas qui ne font pas partie de la majorité des cas qui vont être observés.

Daphnée Lucenet : C’est hyper intéressant parce que ça rejoint aussi beaucoup de notions dont on entend parler. On entend parler de plus en plus de la standardisation pas seulement à cause de l’intelligence artificielle. En gros, cette standardisation viendrait de ce fonctionnement inhérent qui fait que tout ce qui ne rentre pas dans la case, dans la moyenne, on le sort. On y reviendra, c’est hyper intéressant.
Si on reparle maintenant des implications sociales des biais et des discriminations on va dire les plus classiques, on a donc l’amplification des préjugés. On calque le fonctionnement de l’IA sur le fonctionnement de l’humain et l’humain a effectivement naturellement des biais. L’IA hérite et amplifie les biais humains. On a l’exemple des erreurs de reconnaissance faciale qui conduisent à des arrestations injustifiées, c’est de la discrimination. On a l’IA générative qui renforce les stéréotypes avec l’exemple que tu aimes beaucoup, celui des PDG.

Céline Delaugère : Effectivement. Quand on demande à Midjourney de générer une image d’un CEO in front of a desk, on tombe sur un homme blanc, de 50 ans, en face de son bureau.

Daphnée Lucenet : Classique.

Céline Delaugère : Alors que ça pourrait être une femme de 30 ans, noire, devant son bureau.

Daphnée Lucenet : Exactement. J’espère que ce n’est plus le cas, ce sujet-là a fait beaucoup parler.

Céline Delaugère : Quand j’ai vérifié, c’était toujours le cas, mais on espère que ça va bientôt changer.

Daphnée Lucenet : On espère. Ça me fait penser à Heetch qui avait aussi beaucoup joué de ça sur une campagne publicitaire. Ils avaient tenté de générer des images de la banlieue, forcément avec les clichés qu’on a associés à la banlieue, ça a sorti plein d’images hyper négatives. Eux disaient « ce n’est pas ça la banlieue, c’est un préjugé qu’on a sur les banlieues qui a été alimenté par des biais humains et probablement par des images sur lesquelles les modèles ont été entraînés, alors que la banlieue c’est plein d’autres choses que ce qui était représenté ». C’est hyper intéressant, je viens d’y repenser.
Ensuite, on a des problèmes de représentation. Les femmes et personnes noires, en particulier, sont sous représentées de manière significative dans les images générées.
On a aussi des biais plus ou moins subtils dans les expressions faciales et les représentations liées aux femmes. Les femmes sont souvent représentées comme plus jeunes, avec le sourire et de façon plus sexualisée versus les hommes qui sont représentés comme plus âgés, avec des expressions neutres.
Je lisais un article sur la psychologie. Certains psychologues s’inquiètent de l’usage commercial de l’IA émotionnelle qui pourrait aussi augmenter la stigmatisation et la discrimination envers des personnes atteintes de troubles mentaux. Pas mal de gens peuvent être affectés par tout cela.
Cela entraîne forcément des préjudices économiques et juridiques, donc des inégalités sociales, par exemple le refus de prêts ou d’emplois. On en a parlé la semaine dernière ensemble. Il y avait le cas de l’algorithme de recrutement d’Amazon, il y a déjà longtemps, c’était en 2014, mais tu peux nous raconter un peu ce qui s’était passé.

Céline Delaugère : En 2014, Amazon a utilisé un algorithme de recrutement et ils se sont aperçus au bout de plusieurs mois d’utilisation, je crois, que l’algorithme ne retenait que les hommes, donc un biais. C’était la solution un peu facile qu’avait trouvé l’algorithme : les hommes ont plus de chance de passer que les femmes vu les données historiques sur lesquelles ils l’ont entraîné, donc ils ont discriminé les femmes à l’embauche, c’est quand même inquiétant.
On avait aussi un exemple sur la sécurité. Sur certains algorithmes il est effectivement plus facile de détecter des personnes blanches que noires pour la sécurité sur la route par exemple. C’est aussi un problème puisqu’il faut que tous les algorithmes de sécurité puissent reconnaître les personnes de n’importe quelle origine.

Daphnée Lucenet : On se dit que ça n’a été entraîné que sur des données avec des personnes blanches, et tu me disais que ce n’est pas si simple que ça, ça peut venir aussi de plusieurs autres vecteurs.

Céline Delaugère : Oui, ça peut être un apprentissage qui est fait sur des images où la luminosité n’est pas suffisante, il peut y avoir beaucoup de causes. Il faut regarder à la fois la répartition, dans les données d’origine, entre les différentes diversités de personnes, à la fois des problèmes éventuellement de qualité d’image, ensuite l’algorithme, la façon dont il a été entraîné, les endroits. Il y a vraiment beaucoup de choses à prendre en compte. Ça me fait penser aussi à un autre cas sur le diagnostic de cancer de la peau. On sait que les cancers de la peau peuvent parfois être moins visibles sur une peau foncée versus une peau claire, même par des dermatologues ou des professionnels de ce secteur-là. En fait, l’IA vient renforcer encore plus ce problème qui est déjà, à la base, connu par les spécialistes en santé. Comment faire pour changer les choses et là, effectivement, ça va être à différents niveaux : ça va être dans les données, dans l’entraînement, dans les modèles, dans le fine-tuning, donc l’entraînement fait après le premier entraînement. C’est à tous ces différents niveaux qu’il faut regarder.

Daphnée Lucenet : On va plonger plus en détail là-dessus tout de suite. Finalement, il faut retenir qu’il faut repenser l’IA et avoir ces éléments en tête. Aujourd’hui, on part d’un historique, on le reproduit et parfois même on l’amplifie. Si la situation historique était injuste, biaisée et discriminante, on va perpétrer ça et même amplifier ces phénomènes et c’est ce qui est vraiment inquiétant.
Pour mieux comprendre comment tout cela fonctionne, on va repartir des bases. Est-ce que tu peux nous expliquer, nous faire un petit rappel des fondamentaux de l’IA pour bien comprendre les étapes clés, donc mieux comprendre où vont s’immiscer les biais et discriminations à chaque étape ?

Céline Delaugère : Avec plaisir.
Intelligence artificielle est un mot qu’on entend beaucoup aujourd’hui, du coup c’est important de repartir de ce que c’est.
L’intelligence artificielle, c’est l’assemblage de plusieurs choses : la donnée et un algorithme. Grâce à la donnée, on va permettre à un algorithme de prédire statistiquement des résultats. En tant qu’humains, quand nous apprenons quelque chose, nous nous basons sur ce qu’on a vu, nos expériences et petit à petit nous apprenons des choses. En fait, c’est pareil pour les algorithmes d’intelligence artificielle. Ces algorithmes, qu’on peut aussi appeler des modèles, vont voir des centaines, des milliers, des millions d’exemples et, petit à petit, ils vont réussir à prédire quel sera le prochain mot dans une phrase, si l’image est un chat, si c’est un chien, ou bien, carrément, prédire si un pixel doit être rouge ou bien doit être noir. C’est comme ça que, petit à petit, on apprend aux modèles à être entraînés. Donc data plus algorithmes, c’est ce qui fait l’intelligence artificielle aujourd’hui.
Il y a différents types d’intelligence artificielle.

Il y a l’apprentissage, on parle d’apprentissage parce que ce sont des étapes : on va montrer la donnée à l’algorithme et, petit à petit, l’algorithme va être capable de prédire des résultats ; cela s’appelle l’apprentissage.
Dans cette phase, il y a différents types d’apprentissage :
l’apprentissage supervisé. On va avoir de la donnée annotée, labellisée, par exemple on a une image et on lui dit « cette image, c’est l’image d’un chien », « cette image, c’est l’image d’un chat » ;
l’apprentissage non supervisé. Un algorithme va déterminer tout seul si, par exemple, des images sont des images de chats ou de chiens en fonction des pixels qu’il va voir et il va réussir à le déterminer sans qu’on ait labellisé les données.
Aujourd’hui on utilise les deux, ça dépend des cas. Pour reconnaître des images de chats et de chiens, c’est plus pertinent d’utiliser de l’apprentissage supervisé, mais ça dépend des cas.

On a aussi de l’intelligence artificielle sur différents types de données, ça peut donc être sur de l’image. Maintenant, en fait, on arrive à une intelligence artificielle multimodale, on n’est pas soit sur le texte, soit sur l’image, soit sur la vidéo – la vidéo, en réalité, ce sont des images –, soit sur des données chiffrées. On est sur des modèles qui arrivent à avoir en input, donc en entrée, de l’image, en sortie du texte, de l’audio. On arrive à mélanger ces différents types de données parce qu’on passe par une phase d’encoding ; c’est un espace mathématique différent où l’algorithme va comprendre ces données qui ne sont plus du tout du texte ou de l’image ou de la vidéo ou du son mais qui sont, en fait, des chiffres.

Je te parlais tout à l’heure d’apprentissage. L’apprentissage, ce sont différentes étapes :
on a la phase de training qui est la première phase où on va apprendre aux algorithmes ;
ensuite on a la phase de tests et d’évaluation : j’ai montré à mon modèle un million d’images, maintenant, quelle est sa pertinence de résultat. On va lui présenter des images – je prends l’exemple des images, mais ça pourrait être autre chose, du texte, etc. –, et on va évaluer ses performances sur des images qu’il n’a pas encore vues pour savoir si, par exemple, il reconnaît un chat ou un chien à 90 % de précision, à 50 %, ce qui du coup serait un peu inquiétant.

Daphnée Lucenet : Ce n’est pas terrible !

Céline Delaugère : Et on va continuer l’entraînement jusqu’à ce que ce soit bon.
Aujourd’hui, en plus de ça, on n’est plus que dans ces phases d’entraînement et de tests de validation, on est dans une IA qui va apprendre en continu dans beaucoup de cas. On parle de HITL, Human-in-the-Loop, les humains dans la boucle, ou bien de RLHS, Reinforcement Learning from Human Feedback, c’est-à-dire qu’on va intégrer à l’apprentissage des feedbacks humains. On a un modèle qui produit, par exemple, du texte et on va avoir un feedback humain disant « on aurait plutôt formulé ça comme ça ». Ces feedbacks vont être compris dans la boucle d’apprentissage, ce qui fait que ces modèles vont apprendre en continu avec de l’apprentissage par renforcement. C’est d’ailleurs ce que nous faisons chez My Data Machine, mon entreprise : on va combiner à la fois une approche algorithmique et à la fois des personnes humaines qui vont, la plupart du temps, être expertes sur certains sujets et qui vont aider l’algorithme, l’intelligence artificielle à comprendre petit à petit. En fait, ça va venir combiner une partie algorithme et une partie humaine. En ce moment on est là-dessus.

Je parlais de données pour l’apprentissage. Aujourd’hui certains modèles, les plus gros modèles qui existent, ont déjà appris sur toutes les données disponibles. On arrive à un stade, maintenant, où il faut carrément générer de la donnée synthétique par des modèles d’intelligence artificielle qui vont se dire « OK, on avait de la donnée disponible, on a tout appris, maintenant quels types de données pourrait-on créer pour apprendre encore mieux aux modèles des nouvelles choses ? »

Daphnée Lucenet : C’est intéressant puisque c’est à la fois un problème – on a vu qu’OpenAI et tous leurs copains essayer d’avoir accès à encore plus de données – et, en même temps, ça peut être aussi une opportunité en disant vu qu’on n’a plus de données, on est obligé de synthétiser des données, on verra cela peut-être aussi dans les solutions, c’est peut-être l’occasion de synthétiser des données pour rendre les modèles plus équitables et plus représentatifs.

Céline Delaugère : Totalement. D’ailleurs, c’est sûrement une des solutions dont on parlera après, donc restez bien sur le podcast.
On a entraîné les modèles sur toute la donnée, comment fait-on, ensuite, pour corriger les biais ? Une des possibilités va être justement de créer de la donnée, on en reparlera, qui pourrait peut-être servir à cela. Ça peut être une opportunité, totalement.

Daphnée Lucenet : Intéressant.
Pour parler plus spécifiquement de l’IA générative, on se doute bien que tous ces gros modèles, qui sont hyper démocratisés, n’ont pas été balancés comme ça, sans être testés au moins pour éviter de générer du contenu offensant à la base et malgré tout ce qui a été fait, la façon dont c’est fait aujourd’hui, on se retrouve encore avec beaucoup trop de cas de discrimination et de biais. Est-ce que tu peux rappeler un petit peu le fonctionnement, par exemple, de l’approche constitutionnelle utilisée par Anthropic [6] et la façon dont ces gros modèles, ChatGPT, Claude, etc., fonctionnent pour mettre un petit peu des safeguards, comme on dit, pour cadrer tout ça.

Céline Delaugère : Il y a différentes étapes. C’est un peu comme un iceberg. Ce que nous voyons c’est vraiment juste la surface mais, en réalité, il y a plein d’étapes qu’on ne voit pas du tout en utilisant ChatGPT.
Avant ça, je voulais juste rappeler que, pour l’entraînement des modèles, on parlait beaucoup de fine-tuning, je ne sais pas si tu as déjà entendu ce mot. Depuis quelques années, on utilise souvent des gros modèles, qui sont open source, pour ensuite les entraîner à nouveau sur des données spécifiques. C’est aussi une étape importante.
Pour revenir à la façon dont, étape par étape, on construit aujourd’hui un grand modèle :
La première étape, c’est la collecte et l’organisation des données. On vient constituer un jeu de données soit spécifiques soit pas spécifiques en fonction des cas, pour développer son cas d’usage. C’est la première étape.
Ensuite, on va avoir ce que j’ai appelé le fine-tuning, c’est-à-dire que maintenant on a besoin d’entraîner ce modèle-là sur des spécificités qu’il n’avait pas forcément intégrées, ou alors parce qu’on a un cas d’usage spécifique, dans ce cas on va à nouveau affiner les modèles donc les fine-tuner, mais, cette fois, sur un ensemble de données plus restreint.
Ensuite, on a ce dont on parlait, les RLHS, l’apprentissage par renforcement avec des humains dans la boucle. On a des premiers résultats, ils ne sont pas parfaits, comment fait-on pour les perfectionner ? Petit à petit, dans cette phase, on apprend au modèle. C’est là où on va avoir des cas un peu extrêmes ou bien des cas un peu différents du cas général qui vont pouvoir être compris.
Tu parlais de l’approche constitutionnelle. Aujourd’hui, une fois que les modèles sont entraînés, qu’on est passé par les étapes dont on a parlé juste avant, on va pouvoir faire un super prompt et dire au modèle « tu dois bien te comporter ». Qu’est-ce que ça veut dire ? « Tu dois vouloir aider la personne qui te parle, tu ne dois pas parler avec des propos violents. »

Daphnée Lucenet : Tu ne dois pas répondre aux questions de terrorisme… C’est ça aussi ?

Céline Delaugère : Il y a des sujets sur lesquels on ne peut pas poser de questions à ChatGPT. D’ailleurs je crois qu’il y a un moyen de récupérer.

Daphnée Lucenet : En fait, il y a plein de systèmes où tu peux, avec des prompts, bypasser cette constitution, mais ils rendent ça de plus en plus difficile. C’est effectivement tout un sujet. C’est ce qui fait qu’on peut laisser en liberté, ou pas, ces modèles demain. D’ailleurs, DeepSeek a été très critiquée récemment. Je crois que Google disait : « Regardez, DeepSeek répond à des questions type « comment faire une arme biologique », le truc n’est pas du tout bien encadré avec une approche constitutionnelle. »
Tu as ça. Après, tu as encore une couche avec le safe critic sur certains modèles, je ne sais pas si tous l’utilisent.

Céline Delaugère : On peut effectivement rajouter cette boucle-là.
On peut aussi avoir plusieurs modèles qui fournissent des réponses en parallèle et ensuite avoir un modèle qui vient justement sélectionner, critiquer les premières réponses qui ont été fournies pour enrichir, on va appeler ça la self critic, une couche supplémentaire.
On peut aussi avoir des filtres supplémentaires qui, d’ailleurs, ne sont pas forcément faits avec de l’IA. Par exemple, si j’ai une image générée qui contient de la nudité, on filtre l’image, ça peut être des couches qui vont arriver encore plus en protection et honnêtement c’est encore utile. Aujourd’hui, quand je développe des applications qui vont faire de la data delivery, je pense que ces couches sont vraiment importantes parce qu’on a encore pas mal d’angles de liberté côté génération de contenus et il faut qu’on arrive quand même à filtrer tout ça.

Daphnée Lucenet : J’imagine que ce n’est quand même pas évident cette partie, sinon, finalement, on pourrait aussi filtrer des deepfakes.

Céline Delaugère : Franchement, ce n’est pas évident et c’est pour cela que c’était compliqué, à la base, de mettre en production de l’IA générative, parce qu’il y a toujours une partie un peu incontrôlable. Il y a plein de cas auxquels il faut penser, et pas que sur l’IA générative, mais l’IA générative c’est le cas le plus parlant. Au début j’avais un peu peur de mettre à disposition des briques d’IA générative à des clients, parce que, si ça se trouve, au mauvais moment ça peut générer quelque chose auquel on ne s’attendait pas. Petit à petit, ça devient de plus en plus maîtrisable, c’est la bonne nouvelle.
La dernière étape, qui vient justement aider à contrôler le tout, ce sont les mises à jour régulières, avoir une équipe de veille dédiée qui peut regarder les différentes mises à jour de modèles, des good practices, et regarder aussi les retours des utilisateurs, s’assurer qu’on est dans la bonne direction.
Toutes ces étapes-là sont importantes. Selon les différents secteurs ça va prendre différentes formes, mais on retrouve toutes ces étapes dans tous les développements de briques qui vont intégrer de l’IA, notamment de l’IA générative.

Daphnée Lucenet : En plus, c’est quand même hyper important en termes d’adoption, parce que ce qui va faire que les gens auront confiance, ou pas, dans le système d’intelligence artificielle. C’est ce qui peut affecter aussi le plus gravement l’image des entreprises qui mettent sur le marché des solutions avec ce genre de raté.

Céline Delaugère : Et des grosses entreprises ont connu certains ratés, donc on sait que ça peut arriver.

Daphnée Lucenet : C’est clair. C’est encore beaucoup trop arrivé. On va tellement vite dans la course à l’IA, parfois on a l’impression que les entreprises préfèrent directement mettre sur le marché, même si elles n’ont pas trop testé, en croisant les doigts très fort pour que ça passe et après tu te rends compte que non, elles auraient peut-être dû passer un peu plus de temps dans les labos.

Céline Delaugère : Les dernières étapes nécessitent des humains pour apprendre. En fait, beaucoup de personnes qui développent des briques d’intelligence artificielle veulent un peu économiser sur cette partie-là, ces tests, et se disent « au lieu d’avoir des gens de notre équipe ou bien des gens qu’on emploie pour faire ces tests-là, faisons-les directement avec les utilisateurs. » Ça peut aussi être un peu une limite que de se demander « où est-ce qu’on commence les tests avec les utilisateurs et où est-ce qu’on termine les tests en interne ? »

Daphnée Lucenet : C’est toujours la mesure du risque qu’on prend. Il y a toujours un risque, mais à quel point est-il important ?

Céline Delaugère : Et ça dépend des secteurs. Sur la santé, tu ne vas pas avoir envie de faire l’apprentissage avec des patients.

Daphnée Lucenet : C’est clair. OK.

Céline Delaugère : Mais sur la mode ou sur des outils de design, par exemple, ça peut être intéressant d’avoir des retours des utilisateurs parce que même eux vont se dire « je fais partie d’une aventure, je coconstruis », ce sont vraiment des stratégies différentes.

Daphnée Lucenet : C’est vrai qu’il y a des cas d’usage sur lesquels ça peut même être pertinent de les faire entrer là où les enjeux ne sont pas trop énormes, où, en tout cas, il n’y a pas ce risque d’offenser des gens ou de discriminer clairement et de porter préjudice.
On va parler maintenant des différents types de biais, donc de la provenance de ces biais.
On a un peu cette idée fausse qu’on peut prendre des données et se représenter un monde tel qu’il est de façon neutre, ce qui est un peu, une utopie parce qu’on aura toujours, quelque part, des arbitrages à faire. Et, comme on l’a vu, en mettant l’humain dans la boucle de la partie apprentissage cela va aussi influencer les choix qui sont faits, donc, potentiellement, intégrer des inégalités sociales, des préjugés, etc.
Aujourd’hui, on a les biais de sélection, les biais de confirmation et les biais d’évaluation. Est-ce que tu peux nous en parler en quelques mots ?

Céline Delaugère : Les biais de sélection sont les biais dont la cause va être les données d’entraînement, on en parlait tout à l’heure. Par exemple, les premiers algorithmes de reconnaissance faciale, et j’en sais quelque chose parce que, justement, j’avais développé un software qui utilisait la reconnaissance faciale. Dans les données sur lesquelles l’algorithme avait été entraîné, je pense que c’était en 2018/2019, même peut-être avant, FaceMate de Facebook, je crois que c’est 2017, certaines origines étaient sous-représentés, notamment les personnes asiatiques, les personnes noires. Il y avait beaucoup trop de Blancs, peau claire, sur les données d’entraînement ce qui fait que l’algorithme de reconnaissance faciale, forcément, reconnaissait le threshold entre deux images qui étaient la même personne et c’était bien meilleur sur les images de personnes blanches versus les autres origines et ethnicités. C’est donc un biais qui vient des données.
Le biais de confirmation va plutôt être un biais qui vient renforcer des biais déjà humains, c’est, par exemple, le cas d’Amazon dont on parlait tout à l’heure. Comment faire pour éviter ce genre de cas ?
Les biais d’évaluation, et là on va à nouveau parler des out players : les critères d’évaluation ne vont pas prendre en compte des personnes qui ne font pas partie de la majeure partie des gens et des cas principaux.

Daphnée Lucenet : C’est ce qu’on disait tout à l’heure sur les véhicules. Tu testes son truc, tu ne l’as testé que sur des personnes à la peau blanche et tu as oublié de tester sur des gens avec une peau plus foncée. Ce sont les biais d’évaluation.
On se rend compte qu’on a des biais implicites et des biais explicites. On a une partie où ça peut être inconscient et une autre où ça peut être plus ou moins conscient. Dans une des études auxquelles on faisait référence, ce qui m’a choqué c’est qu’on disait qu’on avait 80 % des biais qui étaient inconscients ou qui n’étaient pas forcément attendus ou contrôlables, 3 % qui provenaient quand même de choix délibérés, et 17 % où c’était à peu près un mix des deux, ça c’est sur la base des travaux faits par le MIT. J’ai trouvé ça assez énorme. Je pense que d’un système à l’autre ça peut être plus ou moins, mais j’ai trouvé que c’était assez parlant comme chiffre.

Céline Delaugère : Ça dit que, pour la plupart des biais, on ne le fait même pas exprès, donc par l’apprentissage, petit à petit, on se rend compte de la façon dont sont créés les biais, comment on peut trouver des solutions.

Daphnée Lucenet : En prendre conscience, c’est déjà vraiment la première étape finalement.
Si on parle des sources de biais, il y a trois sources de biais : les données, l’algorithme et les biais humains. Est-ce que tu peux nous parler un peu plus de la partie provenant des données ? On a dit que suivant les données que tu vas sélectionner et sur lesquelles tu vas entraîner tes modèles, tu peux avoir des biais et des discriminations qui sont embarquées. Hier on parlait de ImageNet. Tu vas nous expliquer un petit peu comment fonctionnent les LSVD, les vastes ensembles de données visuelles. Il y a eu ce scandale sur ImageNet, une base d’images sur lesquelles les chercheurs et développeurs s’appuyaient pour développer des modèles, qui embarquaient en fait des images douteuses, qui n’avaient pas été proprement triées. L’histoire, en gros, c’est un artiste, Trevor Paglen, et une chercheuse qui s’appelle Kate Crawford qui, en 2019, ont fait une exposition qui s’appelait Training Humans. Ils ont révélé en fait que ce set de données, appelé ImageNet, comportait des biais très forts. Cette exposition s’appelait « ImageNet Roulette ». En gros, tu arrivais, tu te laissais prendre en photo par le truc et là on te sortait comment tu étais catégorisé par l’intelligence artificielle. Il y a des trucs marrants, des hommes qui étaient catégorisés comme des économistes, et des trucs un peu moins marrants comme des femmes qui se faisaient insulter, des ethnies qui se faisaient aussi insulter. J’ai trouvé ça hyper intéressant.
Est-ce que tu peux nous expliquer un peu cette histoire de données open source sur lesquelles tout le monde s’est entraîné, comment ça fonctionne ?

Céline Delaugère : Comme je disais tout à l’heure dans l’introduction, ça fait dix ans que je m’intéresse à l’IA et il y a eu vraiment un boom en 2016/2017, notamment avec l’apparition des premières images en haute définition, avec les unités de calcul qui ont permis d’avoir de plus en plus d’apprentissages possibles pour de gros ensembles de données par des algorithmes. Et, pendant cette période-là, il y a eu l’apparition de datasets open source publics. La méthodologie utilisée c’était : on prend des datasets open source, par exemple ImageNet, on entraîne dessus, ensuite on voit si ça fonctionne ou pas et on fine-tune, donc on fait un nouvel entraînement avec le même algorithme, mais, cette fois, avec un nouvel ensemble de données plus spécifiques, un sujet sur lequel on veut aller.
La première étape a toujours été de récupérer des données publiques, open source, qu’on pouvait utiliser. Il faut se dire qu’on n’avait pas trop le choix. Quand on commence un projet, on regarde ce qui est disponible en termes de données, on ne va pas directement se lancer dans la construction d’un jeu de données si on sait que son modèle ne va peut-être pas marcher. ImageNet est un gros jeu de données utilisé par beaucoup de chercheurs, mais il y en avait d’autres, il y avait aussi FaceNet qui était associé aux images de visages pour entraîner des algorithmes de reconnaissance faciale, il y avait aussi OTA Images je crois, on en parlait hier, qui a ensuite été retiré parce qu’il contenait des images violentes et pas du tout éthiques.
C’était un peu le process et, aujourd’hui, c’est important de se dire que la donnée c’est hyper important, garbage in, garbage out sur les modèles. J’en ai tout de suite pris conscience quand j’ai commencé à faire mes modèles, je regardais mes images vraiment pixel par pixel pour vérifier que c’était nickel et personne ne comprenait. Mais, sans ça, on a des modèles qui ne sont pas de qualité, pour te répondre un peu sur les jeux de données.

Daphnée Lucenet : Tu me disais que ça c’était autrefois et que maintenant on a tendance à plus s’appuyer sur des modèles pré-entraînés, il y a donc moins cette nécessité de s’appuyer sur des données open source, mais, du coup tu vas dépendre du pré-entraînement de ces modèles-là.

Céline Delaugère : Exactement. En gros, aujourd’hui on utilise de plus en plus des modèles qui sont déjà entraînés sur tout un tas de données, parfois on ne sait même pas exactement sur quelles données ça a été entraîné. On a aussi la possibilité de mettre en place des poids d’entraînement, à savoir peut-être que les nouvelles données vont être plus ou moins importantes par rapport aux anciennes données. N’empêche que les anciennes données, les données open source qui ont été utilisées pour entraîner les modèles restent en mémoire.

Daphnée Lucenet : Tu viens de dire que tu ne sais pas toujours comment ça a été entraîné, sur quelles données.

Céline Delaugère : Je crois que pour ChatGPT on n’a pas exactement toutes les données, on a une idée, mais il y a quand même quelques données qui n’ont pas été partagées sur les modèles.

Daphnée Lucenet : Donc tu as ça. Ensuite tu as les biais qui proviennent non pas de la data mais de l’algorithme. On a la partie algorithme, par exemple sur les réseaux sociaux qui vont amplifier un comportement, renforcer des biais, parce qu’il y a des likes qui disent « ça c’est du bon contenu, etc. ». Tu m’expliquais aussi que, suivant les arbitrages que tu vas faire, les algorithmes vont embarquer des biais et vont laisser de côté des solutions considérées comme pas optimales car pas générales. Peux-tu nous expliquer un peu plus cela ?

Céline Delaugère : En fait, quand on cherche une solution à une équation, en fait quand on entraîne un algorithme, on va chercher à optimiser, dans un espace, son équation. Ça va être le fait que la distribution, donc le modèle qu’on va trouver, va être très proche de trouver tous les bons résultats sur tout l’ensemble de données. En fait, ça va être deviner la distribution associée à toutes les données qu’on a. Sur de l’IA classique, l’IA qu’on voit aujourd’hui, je parle de l’IA qui apprend sur les données, on va chercher à trouver l’optimum global, du coup c’est vrai que pas mal de solutions vont être peut-être pas très communes mais qui pourraient quand même fonctionner, qui ne sont pas révélées par ce type d’apprentissage.
Après, c’est vrai qu’il y a d’autres types d’intelligence artificielle, d’autres types de modèles qui peuvent être utilisés et qui pourront, je pense dans les prochaines années, apporter des solutions. Il y a les algorithmes d’évolution sur lesquels on avait beaucoup travaillé par le passé, qui est un autre type d’intelligence artificielle qui va utiliser l’évolution de chaque solution, en tout cas c’est sûr qu’on peut trouver ce type de problème sur ce cas-là, sur l’apprentissage par les données.

Daphnée Lucenet : OK. Intéressant.
Et enfin, on a les biais qui viennent des humains, comme on disait, cette partie un peu inévitable, la partie Human-in-the-Loop, et aussi sur le choix et la collecte de données. Déjà rien que ça, finalement, ça biaise ton modèle et c’est déjà assez important.

Céline Delaugère : En fait chaque personne, en tant qu’humain, est dans un contexte culturel qui fait qu’elle a des biais. Aujourd’hui c’est dur de s’en défaire et ça va être transmis, à un moment, au modèle d’intelligence artificielle. Il y a heureusement des solutions, on va en parler après.

Daphnée Lucenet : Ce qui serait bien c’est qu’en faisant tout ce travail sur la façon dont on fait pour arrêter d’avoir des modèles biaisés et discriminants, ça nous fasse faire un travail sur nous-mêmes pour mettre en lumière les biais qu’on a et dont on ne se rend pas compte. Ça pourrait aussi être une façon pour nous.

Céline Delaugère : Totalement et j’en suis convaincue. Sur le sujet même des biais, je pense vraiment que l’IA va nous aider à trouver des solutions techniques à des sujets complexes, mais aussi là-dessus : l’IA va nous aider à réfléchir à mettre en place les bonnes stratégies, à mettre des limites et aussi à définir un peu mieux ce qu’est l’éthique, ce qu’est l’éthique en France, ce qu’est l’éthique en Europe, ce qu’est l’éthique en Asie, ce qu’est l’éthique en Chine. En fait, chaque pays doit se poser cette question : qu’est-ce que l’éthique pour nous ? Ensuite, il va falloir harmoniser ça en se disant qu’en Asie l’éthique n’est pas la même qu’en France. Comment fait-on pour que notre éthique ne dérange pas la leur quand ce sont des questions sur lesquelles il faut qu’on soit d’accord ? Comment va-t-on faire pour que eux respectent nos données ou notre façon éthique de voir les choses et il va falloir qu’on avance. L’IA va donc nous aider sur un autre aspect moins technique.

Daphnée Lucenet : Ça nous fait nous remettre en question et, en même temps, je pense que ça va être un gros challenge pour l’Europe parce qu’on essaie pas mal de cadrer tout ça avec la réglementation, etc., sachant qu’on a quand même tout un tas de cultures différentes au sein de l’Europe. C’est effectivement un gros challenge, c’est hyper intéressant.
Si on passe un peu sur la partie plus opérationnelle, parce que tu peux bien nous en parler, sur le déroulé d’une stratégie data IA. Est-ce que tu peux nous dire, dans les grandes lignes, en quoi ça consiste ? On a parlé d’IA générale, celle qui parle au plus grand nombre, mais il y a tout un tas de formes d’IA et de projets d’IA. Comment se passe la mise en place d’une stratégie et comment s’y prend-on pour éviter les dérives ?

Céline Delaugère : La mise en place d’une stratégie, par exemple avec un client. Aujourd’hui, j’aide les entreprises à mettre en place des projets d’IA, ça peut être tous les aspects d’un projet., ça peut être le côté data, le côté algorithmique, le côté métier, ça va être vraiment construire la stratégie.

  • La première étape va être un audit de ce qu’il y a dans le métier, de ce qu’il y a côté data, l’existant chez le client. Comprendre ce qu’on veut faire et aussi réfléchir aux limites, aux limites éthiques, ça va être un premier travail à faire en amont. En fait, c’est un gros cadrage à faire sur plein de sujets qui vont mener à la data, l’IA, mais, avant tout, c’est le métier : qui est-ce qu’on veut aider, quelles solutions veut-on proposer, quels sont les problèmes à résoudre et comment va-t-on évaluer la réponse ? C’est la première étape.
  • Ensuite on va dérouler efficacement donc les différentes étapes :
    • la collecte de données
    • le nettoyage de la donnée
    • la classification de la donnée, ça peut être de l’enrichissement, du timing, de la structuration.
  • Ensuite on va commencer à entraîner tous les modèles d’IA.
  • Après on va être dans l’évaluation, la mise en prod et ensuite ça va être la veille sur des mises à jour à faire, etc.

Daphnée Lucenet : Tu as donc un gros travail en amont qui est plus sur ce qui se passe, un état des lieux. Ça met en lumière tout le fonctionnement, tu regardes comment fonctionne l’organisation en profondeur, quelles sont les données partagées, non partagées, les relations entre les humains, etc., et à partir de ça, ce qu’on fait. C’est intéressant de se dire que c’est quand même une approche humaine dans ce travail hyper tech.

Céline Delaugère : Finalement, l’IA va avoir beaucoup plus de mal à le comprendre. On va de plus en plus avoir besoin de tout ce qui va être soft skills dans les projets d’IA là où, par exemple, l’IA aujourd’hui peut générer du code. C’est intéressant. Tout ce qui est compréhension humaine, intelligence émotionnelle, comprendre des activités différentes, les métiers, ça va être le plus important pour mener à bien un projet.

Daphnée Lucenet : On est sauvé. Tout le monde n’est pas encore remplacé par la machine, nous ne sommes pas des robots, pas encore !
Tu parlais aussi de l’évaluation : 61 % des préjugés sont découverts après déploiement malgré toutes les analyses qu’on peut faire un peu en avant, toutes les prédispositions qu’on peut prendre. Tu m’expliquais que ce n’est pas volontaire, que dans la phase test on cherche l’efficacité et on ne regarde pas trop l’équité.

Céline Delaugère : Ça dépend.

Daphnée Lucenet : Je veux dire traditionnellement et parce qu’on n’avait pas encore conscience de tous les biais possibles que ça pouvait impliquer, forcément ce n’était pas volontaire. Tu disais aussi que ça pouvait résulter de KPI Key Performance Indicators mal définis, avec des mauvaises métriques d’équité d’évaluation. Est-ce que tu peux parler un petit peu de ça et nous dire comment on peut mettre en place des KPI d’évaluation qui prennent en compte ces critères-là ?

Céline Delaugère : Je pensais à une comparaison qu’on peut faire. Quand on veut déployer un software, on a toute une série de tests à faire qui vont nous permettre, justement, de tester toutes les fonctionnalités, sinon on déploie un software, on déploie une nouvelle fonctionnalité et on se rend compte qu’il y a x ou y bug qu’on doit corriger. Ensuite, une fois qu’on a trouvé la cause du bug, on va intégrer un test qui va être lié à ce bug dans la liste des tests à faire avant le déploiement.
En fait, c’est pareil avec l’intelligence artificielle. L’idée c’est de se demander quels sont les tests, quelles sont les métriques qui vont nous permettre d’évaluer si oui ou non cette intelligence artificielle a la connaissance nécessaire pour être utilisée. Souvent des règles sont définies, donc des métriques d’évaluation, on se dit « OK, là on arrive bien à faire apprendre à l’intelligence artificielle la différence entre x et y » et, en mise en prod, on va se rendre compte d’un bug, on va se rendre compte d’un problème, et on va se dire « mince, on n’y avait pas pensé, on l’avait pas mis dans la définition des cahiers d’évaluation, comment fait-on maintenant pour l’intégrer ? », et on va l’intégrer. Petit à petit, je pense qu’on va arriver à un ensemble de règles, toujours les mêmes et toujours testées avant le développement des modèles, mais aujourd’hui, en tout cas dans les années à venir, il y a encore beaucoup de travail à faire là-dessus. Par contre, on en parlera après, il y a quand même, maintenant, des méthodes qui vont avoir un ensemble de règles pas seulement techniques mais aussi culturelles, éthiques, qui vont nous permettre de tester ces modèles avant de les déployer. Au-delà de ça, je dirais qu’avant de développer des briques d’intelligence artificielle, il faut passer beaucoup de temps à comprendre les besoins, comprendre les utilisateurs, comprendre les métiers et définir des règles éthiques sur le projet, qu’on va ensuite retrouver à toutes les étapes : à l’étape de la constitution de données, à l’étape de l’évaluation des modèles, à l’étape de l’évaluation des biais avant de déployer de nouvelles versions du modèle. En fait, tout ça doit être un ensemble cohérent, créé dès le départ, et chaque personne qui va participer au projet doit s’en imprégner pour être sûre de définir des méthodes d’évaluation qui comprennent bien tous ces ensembles de règles qui ont été mises en place pour le métier.

Daphnée Lucenet : D’accord et c’est en faisant qu’on va apprendre au fur et à mesure et aller de plus en plus loin dans ces critères.

Céline Delaugère : Oui, c’est ça, mais il existe déjà quelques méthodologies, qui sont connues, qu’on peut mettre en place dès maintenant, que nous mettons en place pour pallier ces biais qui vont arriver en production.

Daphnée Lucenet : Je te propose d’en parler dès maintenant, de voir un peu quelles sont les solutions pour agir, réparer, anticiper. Il y a des approches plus ou moins techniques, il y a des approches plus opérationnelles. Dans les approches techniques, on va pouvoir débiaiser des ensembles de données. Est-ce que tu peux nous en parler un petit peu plus ?

Céline Delaugère : Quand on a un ensemble de données dans lequel on va se rendre compte que des catégories sont sous représentées, ça peut être des types d’origine si ce sont des visages, ça peut être des types de couleur de peau, ça peut être plein de choses, on peut essayer d’agrandir les catégories qui sont sous représentées et s’assurer qu’il y a un équilibre sur toutes les données. Quand je fais ça, en général j’aime bien que ce soit vraiment à l’équilibre parfait, au chiffre près.

Daphnée Lucenet : Qu’est-ce que l’équilibre parfait ?

Céline Delaugère : C’est se dire « OK, j’ai 5000 exemples sur cette catégorie, j’ai 5000 exemples sur cette catégorie, j’ai 5000 sur cette catégorie, donc j’ai à peu près 5000 ». Par contre, ça demande beaucoup de travail parce qu’il faut d’abord auditer le dataset et s’assurer qu’on a bien toutes les catégories représentées et il n’y a pas forcément qu’un seul type de catégorie. On va peut-être avoir besoin, dès le départ, de différentes évaluations pour s’assurer que, dans les catégories qui sont sous-représentées, on va augmenter les données, on va aller en chercher plus. Ça peut impliquer de la donnée synthétique s’il n’y a vraiment pas assez de données, en tout cas c’est débiaiser les données au démarrage.

Daphnée Lucenet : OK, intéressant.
Ensuite on a les algorithmes soucieux de l’équité, c’est la partie algorithme et là des outils sont en train d’être mis en place dont notamment celui d’IBM, AI Fairness 360 [7], on peut en parler tout de suite.

Céline Delaugère : C’est un ensemble de mesures qui sont présentes pour évaluer des modèles. À la base, on évaluait des modèles un peu comme on était évalué à l’école. D’ailleurs, je pense que ça pourrait aussi nous aider à réformer, à changer le système ! On a une note sur 20, 20 c’est super, 10 ce n’est pas top, c’est moyen, 0 c’est vraiment nul, alors qu’il y a plein de critères divers d’évaluation. C’est un peu comme ça qu’on évalue les modèles jusqu’à maintenant et les humains aussi dans l’apprentissage scolaire en France, mais ce n’est pas suffisant parce que, justement, il y a plein d’autres dimensions à prendre en compte : l’humain, l’émotion, etc. Il y a donc cette initiative d’IBM, AI Fairness 360, mais il y en a aussi d’autres, on pourra les citer après. Il s’agit de définir un ensemble d’évaluations sur d’autres critères, notamment comme l’éthique, qui vont permettre non plus de donner une note entre 0 et 20 mais de réfléchir sur chacun des aspects identifiés comme étant importants pour avoir des modèles éthiques, à combien on les situe sur une échelle, au bout d’un moment, on est obligé de quantifier.

Daphnée Lucenet : Finalement choisir des critères d’éthique peut-être au cas par cas.
On a ça, on a la conception de nouvelles procédures d’annotation dont on peut parler également maintenant.

Céline Delaugère : SituAnnotate [8], c’est vraiment super intéressant. Tout à l’heure, quand on disait qu’on a déjà entraîné les modèles sur toute la data disponible, donc que les modèles sont biaisés, finalement comment fait-on pour entraîner des modèles pour qu’ils ne soient plus biaisés ? En fait, SituAnnotate est un moyen, une méthodologie proposée qui permet d’expliquer les biais culturels, de les présenter en tant que métadonnées dans les données qui pourraient être présentes dans les données. Par exemple, j’ai annoté mes données avec une équipe en Inde, donc dire exactement quels types de personnes ont annoté : c’est un fashion designer, il est donc possible qu’il ait une sensibilité avec tout ce qui est matière, etc. ; c’est un plombier. C’est vraiment comprendre un peu les biais culturels qui peuvent être induits dans la création de la donnée, ça s’appelle SituAnnotate, et après c’est créer ces métadonnées comme un document de référence, une documentation pour dire « les données ont été créées avec ça » et pourquoi pas, demain, même les utiliser dans l’apprentissage du modèle pour lui dire : « Voilà les données qu’on a, maintenant on a aussi des métadonnées qui te font comprendre quels seraient les biais qui pourraient exister dans les données » et là je m’adresse à l’algorithme « est-ce que tu peux les prendre en compte pour débiaiseer tes réponses ». Je pense que c’est une des solutions. Avec My Data Machine, ce sont des solutions qu’on peut proposer sur l’éthique et comment débiaiser des jeux de données.

Daphnée Lucenet : Hyper intéressant. Je précise que l’épisode est une initiative indépendante. Nous sommes tombées sur ces initiatives-là en cherchant, en préparant et, en l’occurrence, SituAnnotate est d’ailleurs open source, maintenu par une chercheuse, j’ai regardé, qui est basée aux Pays-Bas. Il y a donc des solutions qui sont open source, d’autres qui sont propriétaires, mais il y a tout un tas de solutions qu’on pourra aussi mentionner par la suite.
Ensuite on a l’évaluation des modèles. Par exemple, pour l’IA générative, il y a une possibilité avec certains prompts d’évaluer s’ils sont plus ou moins biaisés par rapport au genre, par rapport à des professions, des choses comme ça.
On a aussi des méthodes basées sur le word embedding pour calculer des scores qui révèlent en fait des connotations de genre sur des outputs des modèles. Une des solutions c’est d’adopter une réflexion globale sur la façon de mettre des garde-fous et optimiser la solution en favorisant la diversité.
Après, on a des pratiques opérationnelles, donc des audits tiers, la surveillance continue pendant le déploiement, comme tu le disais, la mise en place d’une gouvernance qui permet de faire appel à des personnes de différents backgrounds, différentes expertises, des personnes qui vont être garantes de l’éthique, de la partie peut-être plus sociologique, des personnes techniques, c’est important de croiser les expertises.
Comme autre solution, on a évidemment le cadre politique et réglementaire avec l’IA Act [9] qui, aujourd’hui, encadre plus les IA à haut risque. Donc toi, quand tu vas développer en fait des solutions, tu ne seras pas forcément soumise à autant d’obligations que les IA à haut risque suivant les use-cases, mais c’est intéressant d’essayer de s’appliquer cette même discipline pour se dire « on va s’inspirer de ce qui est fait pour éviter des dérives à grande échelle, pour éviter des dérives sur notre propre business. »

Céline Delaugère : Totalement. Je pense aussi à des solutions qui peuvent être mises en place au niveau algorithmique, on en parlait. Aujourd’hui, la plupart des algorithmes vont chercher à trouver la solution sur tout l’ensemble de données. Il faut se demander, maintenant et dans les prochaines années, comment on va pouvoir trouver des algorithmes qui ne vont pas trouver la solution à tout l’ensemble de données, mais qui vont permettre de mettre en lumière différentes solutions. Cela va passer par intégrer dans les modèles d’IA qu’on utilise aujourd’hui d’autres modèles d’apprentissage, par exemple des algorithmes d’évolution ou bien des algorithmes qui vont prendre en compte différents types d’apprentissage.

Daphnée Lucenet : Hyper intéressant, donc de nouveaux types d’algorithmes. On a aussi la transparence et toutes les solutions autour des datasheets pour les datasets, des data audit cards, tous ces dispositifs qui permettent de donner encore plus de données sur le contexte dans lequel la donnée a été récoltée, traitée.

Céline Delaugère : Les métadonnées, le contexte, la culture, etc., qui permettent de sur-apprendre pour comprendre les biais qui peuvent être inclus et aussi en avoir conscience. Ça va nous aider parce que les mettre en lumière c’est déjà, comme on a dit tout à l’heure, la première étape.

Daphnée Lucenet : La première étape, exactement. Il y a donc plein d’initiatives, comme on disait, des initiatives open source, propriétaires, on a parlé d’IBM, il y a la solution Fairlearn de Microsoft, Google aussi en a sorti une, What-If Tool ; Microsoft Research a sorti Checklist. On a tout un tas de solutions. Tu as parlé rapidement aussi de Hugging Face [10] qui avait intégré quelques solutions.

Céline Delaugère : Différents packages existent maintenant qu’on peut utiliser, certains open source, certains propriétaires comme les packages de Hugging Face ou bien le package dont tu parlais tout à l’heure, AI Fairness 360, ou les autres. Pour chaque cas, on va avoir différentes métriques d’évaluation qui vont nous permettre d’évaluer nos modèles, certaines vont être plus pertinentes quand on a un problème de biais sur les données initiales, d’autres vont être plus pertinentes quand on a des enjeux par exemple sur l’ethnicité. Il faudra regarder quel est le framework le plus adapté à son cas, le choisir, et quand on développe le modèle, dans la partie évaluation, passer par cette étape qui est « évaluer son modèle avec tel framework » et, pourquoi pas aussi, justifier le choix du framework et que ça fasse partie des métadonnées.

Daphnée Lucenet : Oui, ça fait partie des enjeux de transparence.
OK, super intéressant.
Si tu pouvais changer une chose dans la façon dont les entreprises conçoivent leur stratégie IA, quelle serait-elle, pourrais-tu la partager pour clôturer ?

Céline Delaugère : Je parlais de l’iceberg. En termes de stratégie, je pense qu’il faut déjà passer par la prise de conscience du fait qu’il faut beaucoup travailler à définir le cas en amont, la partie stratégie, et ne pas lancer directement dans le développement. Il faut d’abord créer cette base culturelle, créer ces règles, réfléchir aux choix éthiques qu’on veut faire, les limites, les critères d’évaluation, etc. C’est un travail très important et il n’y a pas vraiment de raccourcis à faire. Il faut investir sur cette phase de cadrage et de stratégie en amont avant le lancement du projet.
Avant on disait que la donnée c’était la moitié du projet d’IA, donc la moitié de la partie développement était sur de la donnée et l’autre moitié sur l’évaluation du modèle. C’est vrai pour le cadre du projet machine learning. En fait, je pense qu’il faudrait plutôt passer une bonne partie du budget, un tiers, sur la façon de se placer dans un cadre éthique, et pas seulement éthique au sens de la diversité, aussi dans le sens d’avoir des algorithmes performants, qui fonctionnent dans tous les cas, et qui ne mettent pas en lumière juste le quick win de la solution. Je pense qu’il y a bien un tiers du projet à passer là-dessus : communiquer avec toutes les équipes qui font appel à beaucoup de soft skills et ensuite se lancer sur la partie données, un tiers, et la partie évaluation des modèles, entraînement des modèles, mise en production.

Daphnée Lucenet : OK. Super intéressant. La leçon c’est : ne fonçons pas tête baissée, posons-nous à plusieurs pour bien réfléchir à ce qu’on va faire et je pense que c’est ce qu’on devrait faire quand on pense à l’IA en général, on s’en porterait beaucoup mieux.
Merci beaucoup Céline, j’étais ravie de te recevoir.

Céline Delaugère : Et si vous voulez aller plus loin, n’hésitez pas à nous contacter pour les sujets de stratégie de mise en place d’une nouvelle intelligence artificielle, d’un use case AI et, avec Daphnée justement, nous serons à même de vous aiguiller sur les différentes méthodologies qui correspondent à votre projet et qui vont vous permettre de réaliser le projet avec succès, de l’étape stratégique jusqu’à la mise en prod.

Daphnée Lucenet : Merci d’avoir écouté cet épisode IA Ethique Insider. J’espère qu’il vous a donné de nouvelles clés pour penser autrement l’intelligence artificielle et ses impacts réels.
Si cet échange vous a plu, n’hésitez pas à vous abonner au podcast sur votre plateforme d’écoute préférée, à laisser cinq étoiles ou un commentaire, c’est ce qui m’aide à le faire découvrir, ou à le partager autour de vous, notamment sur Linkedin ou n’importe où, avec vos réflexions et vos questions, je vous lirai toujours avec beaucoup d’attention. Si vous souhaitez aller encore plus loin, inscrivez-vous à la newsletter. Je vous dis à très vite dans un nouvel épisode.