La reconnaissance d’émotions dans la voix – Partie 2

Personne·s Laurence Devillers Carole Lailler Jean-Luc Marini

Thèmes Conference Économie Intelligence artificielle Partage du savoir

Sommaire

Transcription

Titre :: La reconnaissance d’émotions dans la voix – Partie 2
Intervenant·e·s :: Laurence Devillers - Carole Lailler - Jean-Luc Marini
Lieu :: Lab Pod, Axys Consultants
Date :: juillet 2020
Durée :: 36 min
Écouter ou enregistrer le podcast
Licence de la transcription :: Verbatim
Illustration :: Modulation-de-frequence, Wikimedia Commoons - Domaine public
NB :: transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.

Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l’April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

Jean-Luc Marini : Bonjour Carole et bienvenue pour ce nouveau Lab Pod.
Carole Lailler : Bonjour Jean-Luc, ravie de te voir sous la pluie orageuse aujourd’hui.
Jean-Luc Marini : Aujourd’hui nous ne sommes pas seuls, car nous avons le plaisir d’accueillir Laurence Devillers qui est professeure en intelligence artificielle et chercheuse au LIMSI [Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur] pour parler ensemble de la reconnaissance d’émotions dans la voix.

Bonjour Laurence. Vous allez bien ?
Laurence Devillers : Bonjour Jean-Luc. Très bien. Merci. Bonjour Carole.
Carole Lailler : Bonjour Laurence, ravie de te retrouver.
Jean-Luc Marini : Comment est-ce qu’on s’y prend pour concevoir un système de reconnaissance automatique d’émotions dans la voix ? Aujourd’hui, si jamais je voulais monter un système de ce type-là, par où je commencerais et quelles sont les étapes indispensables ?
Laurence Devillers : Les étapes indispensables c’est d’avoir un corpus de valeurs qui soit étiquetées correctement.
Carole Lailler : Les données, toujours les données.
Laurence Devillers : Voilà. Il est nécessaire de travailler sur l’obtention des données et sur l’annotation des données.

Je pense que la meilleure façon de faire c’est d’avoir des données de terrain qui soient le plus proches possible de la façon dont le système va être utilisé. Les données qu’on utilise en laboratoire ou qui viennent de données trop protégées montrent bien qu’on n’est pas robuste après. Si je prends la reconnaissance faciale, vous avez des données où vous avez 90 % de reconnaissance avec des scores incroyables en laboratoire, je passe dans la vraie vie, il y a de la lumière partout, ça réverbère, j’ai une personne âgée qui a des rides, j’ai donc dix sourires en même temps ! Enfin ça devient vraiment très peu robuste, donc il est essentiel d’être sur le spontané.
Carole Lailler : Voilà ! Un autre exemple, assez trivial aussi, mais qui se comprend bien : un système qui a été appris sur de la parole lue va être totalement mauvais pour transcrire notre conversation parce qu’on vient de se couper la parole, par exemple, et là on n’est pas encore dans l’émotion, on est seulement dans la transcription. Cette robustesse amenée par « je réfléchis à mon cas d’usage et au type de données – qui est mon saint Graal ? – » pour essayer de retrouver et de construire, de penser à la collecte, le corpus qui ira bien pour l’apprentissage en respectant éthiquement, effectivement, les éléments de collecte et en ayant à cœur cette diversité de représentation des locuteurs est fondamentale.
Laurence Devillers : Et puis ce n’est pas suffisant, ça dépend de ce qu’on veut en faire après. Pour l’instant, avec Carole, on a expliqué l’étape 1, c’est-à-dire si je veux détecter ponctuellement une émotion. Je dirais que dans ces cas-là on aura peu de chance d’avoir des scores très performants parce qu’on n’aura jamais assez de données, on n’aura jamais vu assez de diversité et surtout on est hors contexte. L’essentiel c’est cette interaction dialogique : vous êtes dans un contexte particulier donc il faut prendre en compte ce contexte pour arriver à mieux anticiper ce que pourraient être, finalement, les réactions. Je pense que dès lors qu’on a mieux encadré la situation, en fait on est plus à même de pouvoir prédire des comportements avec plus de fiabilité.

L’alignement entre les deux voix, entre la voix de la machine qui propose quelque chose et ce que vous êtes en train de faire, est important ; le temps de latence est important. Il y a aussi énormément d’hésitations qui vont être subtiles à prendre en compte, qui seront importantes. Et puis je crois qu’on est vraiment quand même dans des systèmes d’in-communication à l’heure actuelle, c’est-à-dire qu’on est très loin de la co-construction dont parlait Carole, on est très loin de la préservation de la face, de la théorie de Goffman, c’est-à-dire faire attention à ce que l’autre ne perde pas la face dans l’interaction et on est très loin du jeu de négociation et de séduction qui existe dans l’interaction vocale entre humains.

Avec des machines il faut avoir un objectif très clair de ce qu’on veut et pas du tout imaginer qu’on va pouvoir détecter une foultitude d’émotions.

Si vous êtes intéressé par une émotion particulière pour une pathologie particulière comme le stress, la dépression, vous avez vraiment des catégories très typiques, il faut travailler dans cette continuité en essayant de collecter le plus de données de ce type-là, tout en ayant toujours en tête qu’on devrait utiliser les prédictions de ces systèmes comme étant des enrichissements et non pas comme étant quelque chose qui va nous donner une puissance de décision puisqu’on voit que ce n’est pas très fiable, que c’est très différent entre les humains. On ne peut pas faire confiance à ces systèmes dans l’état actuel de nos connaissances et de tout ce que j’ai vu développer dans l’industrie ; on ne peut pas faire confiance à ces systèmes. On peut juste utiliser ce qu’ils peuvent prédire comme étant des indices en plus dans une stratégie plus globale, conversationnelle, qui met en œuvre différentes capacités qu’on essaie de détecter dans le comportement des gens.

Et la façon dont on pose les questions va aussi influer énormément sur les réponses, donc il faut bien comprendre ce mécanisme-là de manipulation audio aussi.
Carole Lailler : Et vocal, c’était le sujet de ma thèse effectivement. Je suis tout à fait d’accord avec Laurence.
Laurence Devillers : Et vocal.
Il y a une expérience géniale, que j’ai trouvée géniale parce qu’elle marche, tout de suite on comprend très vite, qui a été faite par l’Ircam [Institut de recherche et coordination acoustique/musique] qui était la suivante. On voulait regarder l’impact de sa voix sur son propre ressenti émotionnel. Vous prenez des gens, vous leur demandez de prononcer des mots et, dans le casque retour où ils s’entendent parler, vous modifiez leurs voix en montant le pitch, en montant la fondamentale pour aller vers un son plus aigu et plus positif tel qu’on l’entend, une voix féminine. On monte le pitch. Les personnes réalisaient ce test et celles dont le pitch avait été modifié étaient globalement plus heureuses que celles dont le pitch n’avait pas été modifié. Donc on est sans cesse en train de s’écouter, d’écouter l’autre, et de modifier la perception qu’on a. Ces façons neuro-fines de comprendre l’impact des émotions, on en est très loin dans les systèmes qu’on met en place.

Je crois qu’ils peuvent être très puissants, mais il faut bien cadrer et bien comprendre là où c’est utile.
Jean-Luc Marini : C’est clair. On voit bien l’importance des corpus, effectivement, dans ces systèmes, d’avoir des corpus suffisamment diversifiés et correctement annotés, d’où ma question : comment est-ce qu’on annote aujourd’hui ces corpus ? Est-ce qu’il y a des techniques particulières ? Est-ce qu’il y a des modèles d’annotation ?
Laurence Devillers : Il y a tout un travail, le micro-travail de toutes les personnes non payées ou sous payées par les GAFA, qui sont tout le temps en train d’annoter des données, n’est-ce pas, pour nourrir tous ces systèmes qui vont être capables de comprendre votre profil, qui vous aident. Toutes ces données sont annotées à plein de niveaux différents, en feuilletage, par tout un tas de petites gens ; je ne sais pas comment c’est fait mais ça fait très peur parce que, finalement, où est l’expertise ? Elle est bien dans l’annotation qu’on est en train de mettre, non seulement dans la sélection des données mais aussi de l’annotation.

Dans l’apprentissage machine, tout le monde utilise à peu près les mêmes outils à l’heure actuelle. Quand j’ai fait ma thèse, j’ai codé un système particulier et après j’ai vérifié qu’il n’était pas bugé, qu’il n’y avait pas de problème en le comparant à d’autres, etc., mais j’ai fait complètement le système. À l’heure actuelle mes étudiants prennent les librairies qui sont en général celles des GAFA – on a quelques librairies en libre quand même – pour créer leurs systèmes. Donc c’est un jeu de puzzle qu’on assemble et toute l’expertise va être quand même beaucoup encore sur le choix de ces données. Toute l’intelligence que l’on mettait dans un système expert en disant « voilà les règles des experts pour essayer de reconnaître ça », là on met cette intelligence dans le choix des données et dans leurs annotations.

Comment on procède ? D’abord il faut discuter avec les personnes qui ont intérêt à utiliser un outil, quels types d’annotations elles veulent récupérer et pourquoi, et travailler sur ces annotations. Une fois qu’on a compris à peu près quelle est l’enveloppe voulue, à ce moment-là il faut se poser la question d’annoter, il faut annoter à plusieurs comme le disait Carole tout à l’heure ; à des moments on a eu 15 personnes qui annotaient en parallèle la même chose. On va essayer de regarder à partir de combien de personnes on arrive, finalement, à une annotation qui va être la même et on voit souvent qu’à partir d’une dizaine de personnes on arrive à peu près à converger.

Ce que j’avais fait à un moment donné, qui me paraissait intéressant, mais sans l’avoir développé plus et je pense que je vais encadrer des thèses bientôt, ce sera l’occasion d’aller jouer sur ces terrains-là, c’est travailler sur le pluri-labels. C’est-à-dire que vous avez des perceptions différentes liées non seulement à la difficulté du contexte dans lequel on vous demande de juger mais par rapport à ce que vous êtes, vous. Est-ce qu’il faut, finalement, faire rentrer tout le monde dans le même moule ou est-ce que la complexité des regards qui vont peut-être dire plutôt là c’est colère et là non, pour moi c’est neutre, et pour moi ça serait, ou plus fin que ça, est-ce qu’il faut pas prendre en compte différents regards et en faire ce que j’avais fait à un moment donné un vecteur, finalement, d’annotations, et avec ces vecteurs travailler sur un univers un peu plus riche, multi-facettes, autour de différentes perceptions humaines de l’objet qu’on cherche à modéliser.
Carole Lailler : Typiquement quand on cherche, on l’a fait avec Laurence, je le fais encore aujourd’hui dans des projets, à construire un guide d’annotation, les réunions d’annotation ne doivent pas être l’occasion d’une harmonisation-lissage parce que celui qui a la force de persuasion la plus forte par la parole va convaincre son petit voisin qu’il s’est trompé alors que parfois c’est juste parce que dans l’entourage, sur de la perception vocale par exemple j’ai eu le cas récemment, l’annotateur qui n’était pas forcément en accord avec ses petits camarades s’est vite rendu compte que dans son monde environnant, il n’entendait pas de voix jeunes, c’est ainsi, et qu’il avait donc une perception un petit peu différente, peut-être plus fantasmée, du moins différente. On n’a pas été dans un lissage où finalement on enlève ton label et on garde celui des autres, on a été davantage sur une réflexion de critères objectivables tant que faire se peut, même si c’est délicat, et dans cette réflexion, comme le dit Laurence, de multi-labels où l’idée ça va être d’avoir des intervalles de consensus plus qu’un label posé, certifié.
Jean-Luc Marini : Très bien, C’est très clair.

On pense souvent à de grands corpus. Un grand corpus c’est quoi en termes de taille ? C’est une centaine d’heures, c’est 500 heures, ce sont des milliers d’heures ?
Carole Lailler : Ça dépend de ce que tu veux faire, je sais que c’est une réponse très prudente et j’entends bien qu’elle le soit, mais c’est vrai que pour faire de la transcription de la parole ou de la reconnaissance en émotions – et Laurence a parlé tout à l’heure d’algorithmes de classification – est-ce que j’ai 22 labels, 22 thématiques ou 10 émotions, ou est-ce que j’en ai 4 ? Je ne suis pas sur la même répartition, la même nécessité d’apprentissage. C’est encore une fois très lié à ce que l’on veut obtenir en sortie et ce que l’on souhaite faire. C’est vrai que plus on a de données plus on est ravi, ne serait-ce que pour cet apprentissage de la diversité, des frontières, des voix ; Laurence parlait de la difficulté des voix jeunes qui ne sont pas encore, on l’avait dit dans un précédent Lab Pod, arrêtées physiologiquement, donc forcément elles sont d’une inventivité folle, ce qui est difficile à caler et à apprendre pour un système.
Jean-Luc Marini : En fait, il faut pouvoir tester, voir si effectivement c’est suffisant au regard des objectifs qu’on a définis et éventuellement retravailler le corpus pour essayer de l’enrichir si ce n’est pas le cas ?
Carole Lailler : Tout à fait. Il y a une dimension itérative et c’est pour ça que la semaine dernière je te disais que je n’aimais pas l’évaluation couperet, guillotine, et que je préférais quand les évaluations avaient l’intelligence d’accompagner le système et les processus parce qu’effectivement il y a cette nécessité d’avoir un œil sur le système comme on a un œil sur le lait quand il est sur le feu, d’une certaine façon.
Jean-Luc Marini : On parlait tout à l’heure d’émotions combinées. Comment est-ce qu’on procède en la matière ?
Laurence Devillers : Pour revenir quand même sur la taille des corpus, j’avais plutôt dit 1000 heures, c’est-à-dire que quand on parle de grand corpus c’est à ce niveau-là ; à partir d’une centaine d’heures on espère avoir des choses déjà intéressantes. Ce dont il faut se rendre se rendre compte c’est qu’à part les GAFA, les géants américains ou peut être quelques entreprises mais très peu, c’est difficile en ce moment d’avoir énormément de données, donc le monde de la recherche se tourne vers le small data, c’est-à-dire, en fait, qu’est-ce qu’on peut faire avec peu de données.
Jean-Luc Marini : C’est aussi un axe important aujourd’hui.
Laurence Devillers : Qu’est-ce qu’on peut faire avec peu de données ? Eh bien on peut en synthétiser d’autres qui ressemblent, donc on joue beaucoup sur les synthétiseurs avec des gammes, avec ces espèces de réseaux de neurones adversarial [1] aussi ou alors avec une modélisation du conduit vocal et en essayant de modifier la parole de quelqu’un pour le faire passer d’un homme à une femme. Voilà ! On peut enrichir artificiellement avec des stimuli vocaux qu’on crée, donc ça va créer du bruit autour et un peu de diversité.
Carole Lailler : On peut dégrader une voix de studio enregistrée sur un joli plateau en faisant croire que c’est du téléphone par exemple.
Laurence Devillers : Ça c’est facile.
Carole Lailler : Soyons positifs. Donnons des choses un peu concrètes cette fois-ci.
Laurence Devillers : L’autre chose qu’on essaie aussi de faire c’est d’apprendre à la volée, notamment sur Internet en regardant les trucs de YouTube, etc., ou des films, mais c’est compliqué parce qu’il y a énormément de facteurs qu’il faudrait pouvoir trier et qu’on n’a pas des systèmes qui sont aussi intelligents que ça pour aller sélectionner des données. Ensuite, quand le robot entend quelqu’un qui parle, on pourrait aussi avoir des processus adaptatifs. C’est pareil, il faut les contrôler, sinon on risque d’avoir des systèmes qui vont diverger vers d’autres objectifs que ceux qu’on leur a donnés au début et qui seront intenables. Tout ça n’est pas mature.

Je dirais que l’utilisation de peu de données et d’une intelligence adaptative, c’est sûrement l’avenir puisqu’on n’aura jamais assez de données pour beaucoup et puis ça sera toujours très onéreux de les annoter, parce que, évidemment, on ne fait pas annoter par 15 personnes, en général dans les papiers on demande qu’il y en ait au moins deux, au mieux trois, rarement au-delà. L’autre chose aussi c’est que les annotateurs, en tout cas si on regarde les papiers de chercheurs, sont souvent des étudiants ; ils ont le même âge, ce sont trois garçons puisqu’on est dans le monde de l’informatique où on a peu de jeunes filles qui viennent faire des thèses ou des stages. On a donc une vision du monde qui est vu par quelqu’un qui a 22 ans, qui est masculin, qui a tel profil, donc ce n’est pas non plus la vision du monde des émotions entre quelqu’un qui…
Carole Lailler : Il faut qu’on échange nos annotateurs, Laurence, parce que moi j’ai le problème inverse, c’est-à-dire que les garçons sont d’accord pour faire un peu de dev, par contre ils laissent les annotations aux filles.
Laurence Devillers : On aurait pu dire que c’était l’inverse, mais c’est la même chose, il y a une discrimination c’est tout ce que je voulais dire, c’est-à-dire qu’on a un point de vue et pas forcément un point de vue riche. Quand j’avais commencé à faire des annotations, je m’étais dit qu’il fallait justement avoir des annotateurs masculins, féminins et de différents âges parce qu’au moins on avait une impression différente et on pouvait construire ces vecteurs multi-labels, multi-étiquettes, de façon plus riche.

Maintenant comment on fait pour les exploiter ? Eh bien il y a différentes stratégies que je ne vais peut-être pas toutes décrire, en tout cas ce sont des pistes de recherche pour l’instant, je ne pense pas qu’il y ait beaucoup de systèmes industriels qui utilisent du multi-label.
Carole Lailler : Non, mais ça commence pour justement les problématiques pragmatico-économiques que tu évoques, c’est-à-dire que la constitution des corpus a un coût, leur durée de vie aussi. Il y a la réalité du RGPD [Réglement général de protection des données] qui commence quand même à bien être intégrée, y compris dans les entreprises, donc cette volonté d’essayer de répondre à une problématique clairement circonscrite avec ce que l’on a, en mettant un peu de soin et d’attention à la préparation des données pour ne pas partir sur quelque chose de déceptive [trompeur, NdT], et un POC [<em] qui n’est jamais poursuivi parce que totalement décorrélé de la réalité, comme tu le disais tout à l’heure.
Laurence Devillers : Oui. Ça devient de plus en plus prégnant et important, c’est comment on donne des guides de bonne pratique, comment on mesure qu’un corpus n’est pas équitable, comment on mesure que sur le long terme vous avez une machine qui vous influence. À priori, dans le dialogue, on influence toujours, mais est-ce que c’est à tel point que ça en devient problématique ou est-ce que c’est juste normal ? Toutes ces questions autour de ce que j’appelle l’éthique, en fait, le respect de l’autre dans les choix qui sont faits par les machines ou les prédictions qui sont données par les systèmes de reconnaissance des formes sont à mon avis des choses qu’on va construire là, bientôt, et avec lesquelles il faudra jouer dans l’industrie. J’ai travaillé, par exemple, avec le Hub France IA [2] sur le rapport qui a été produit par l’Europe, on a fait travailler une dizaine d’entreprises, que ce soit des grands groupes ou des startups – il y avait Dream Quark, il y avait aussi la SNCF ou la Société Générale pour vous donner des exemples – donc on a travaillé sur la faisabilité dans un monde pragmatique, comme tu dis, c’est-à-dire comment on fait pour passer des concepts de respect des droits de l’homme à quelque chose que je peux mettre en place comme mesure pour vérifier que mon système se comporte correctement. Il y a eu beaucoup de questions pour lesquelles on a demandé aux industriels : « Seriez-vous capables de faire quelque chose de cet ordre-là ? Pensez-vous que c’est tellement onéreux que vous le ferez pas ? ». En fait, essayer de comprendre la difficulté de la mise en place de ce genre de mesure.

Certes, ce sont des sujets qui vont arriver partout, ils arrivent aussi dans les projets qu’on est en train de monter, sur tous ces objectifs qui sont quand même de nouveaux systèmes avec de nouveaux usages. Et maintenant tous les projets européens insistent énormément : l’éthique ce n’est plus seulement les données, c’est finalement comment le système se comporte, comment il est évalué, audité, et est-ce que c’est fait dans un cadre suffisamment étudié, pas juste une vitrine.
Jean-Luc Marini : Tout à fait. Ce qui m’amène d’ailleurs aussi à poser la question de l’évaluation et notamment l’évaluation des performances : comment est-ce qu’on évalue les performances d’un système de reconnaissance d’émotions ?
Laurence Devillers : Normalement, dans une approche classique, pour évaluer le système on va prendre une partie de notre corpus de données pour faire de l’apprentissage, une deuxième partie pour faire du développement c’est-à-dire, en fait, savoir arrêter l’apprentissage et dire j’ai obtenu un modèle assez générique et pouvoir le tester sur une troisième partie. Donc j’ai trois parties : apprentissage, développement, test ; je teste sur la dernière partie. Ça c’est un protocole.

J’en ai un autre qui va être de faire, par exemple, dix tranches : je sépare mon corpus en dix parties et j’en utilise neuf pour l’apprentissage, je teste sur la dixième et puis j’échange, j’en prends neuf autres, je teste sur la dixième, comme ça j’essaie de tester tout mon corpus.

Une autre façon de faire c’est de regarder locuteur par locuteur pour que ça soit indépendant du locuteur. On met quelques locuteurs à part en test, on fait de l’apprentissage sur d’autres locuteurs et on va tester ceux-là et de la même façon on va jouer en échangeant les locuteurs qui sont en test pour avoir une moyenne des performances. Ça, ça nous permet d’être plus robustes, en fait, que le fait d’avoir juste un test, d’accord ?

J´irais encore plus loin. J’ai essayé de pousser à faire du cross corpus c’est-à-dire que j’ai un modèle que j’ai obtenu sur un corpus de données pour une tâche particulière, puis-je utiliser le même modèle sur une autre tâche où j’ai le même type d’émotions, par exemple de la joie, de la colère, des choses assez simples. Je vais aller chercher.

C’est intéressant de voir comment on peut passer d’une tâche à une autre, après avec toute la difficulté de prise de son, c’est-à-dire qu’il faut rester dans un environnement où la prise de son est similaire, sinon, là aussi, il faut faire un filtre. Par exemple, si on a une interaction avec un robot et ensuite on veut utiliser le même modèle pour passer au téléphone, certes là je pourrais parser un filtre pour arriver à ne prendre dans mon corpus que les fréquences jusqu’à 4000 hertz qui va être la bande passante au téléphone.
Carole Lailler : Ce que dit très bien Laurence, c’est qu’il va falloir évaluer, mais évaluer un élément et pas, quelque part, se laisser brouiller, puisqu’on parle d’ondes, par d’autres éléments qui viendraient mettre les travaux en échec alors qu’ils n’en sont pas finalement la source première, la cause première.
Jean-Luc Marini : Tout à fait. Vous qui êtes, je dirais, au fait de ce qui se passe un peu dans les laboratoires à un niveau déjà français, européen et international, comment évolue la recherche en matière de reconnaissance automatique d’émotions ?
Laurence Devillers : Il y a beaucoup de groupes. Quand j’ai commencé à travailler sur ce sujet en 2000, en France on devait être le seul groupe en détection des émotions dans l’audio. Sur la parole, sur la reconnaissance de la parole, il y a, en France, plusieurs sites qui sont reconnus, par exemple au Mans, à Avignon il y a un laboratoire qui s’appelle le LIA [Laboratoire d’Informatique d’Avignon], à l’INRIA, dans l’Est de la France, à Télécom. II y a plusieurs sites qui commencent tous à s’intéresser à ça ; c’est devenu un sujet qui a énormément attiré de monde.

On a vu aussi fleurir des compétitions dans les conférences, compétitions menées par des gens que je connais bien, ce sont des gens très bien, mais je suis contre ce genre de compétition qui laissent à penser que le domaine est suffisamment mature. En fait c’est faux. Si vous regardez les résultats de ces compétitions, on est souvent avec des 40 % d’erreurs ou 30 % d’erreurs, comme je disais tout à l’heure, ce qui n’est pas suffisant pour monter des vrais systèmes. Donc la détection de la personnalité dans l’audio ou des émotions, c’est très délicat.

Une des expérimentations que j’avais faite qui montrait vraiment bien cela et qui montrait aussi le fait dont on a parlé toutes les deux qui est que les émotions sont multimodales, par essence, c’était en fait d’avoir fait une prise de corpus multimodal sur des interviews qu’on faisait avec des étudiants sur le stress. On les mettait dans des situations qui les stressait et il y avait des captures audio, visage, profondeur de mouvement ; ils étaient sur une plate-forme de force, ils avaient une ceinture pour calculer le rythme cardiaque, ils avaient une autre capture de la conductance de la peau et d’autres facteurs physiologiques ; il y avait aussi des gestes qu’on pouvait repérer et, évidemment, on pouvait aussi se servir de questionnaires en psychologie pour essayer de comprendre dans quel état ils étaient. Donc on était sur du multimodal avec des questionnaires de psychologie très avancés sur la personnalité aussi pour essayer de détecter quel était le ground truth, c’est ça le Graal, où est la vérité, en gros. Eh bien on a pu montrer qu’il n’y avait pas de vérité sur l’un ou l’autre de ces canaux, il y avait une vérité différente suivant les individus. Par exemple, les individus très sportifs savent bien réguler leur rythme cardiaque, ils seront moins à même de tomber dans les pommes devant une situation anxiogène ou je sais pas quoi que d’autres. Nous sommes des animaux à sang chaud et très différents, en fait, vis-à-vis de ça.

Le marqueur le plus fiable pour le stress c’est encore un test sur la salive. On va effectivement trouver dans ce test sur la salive des facteurs qui sont assez objectifs.

Pour le reste, je dirais que c’est extrêmement délicat de ne prendre que la voix ou ne prendre que l’image ou ne prendre que les gestes, parce que c’est une combinaison de tout cela et, encore une fois, si on avait à catégoriser vraiment, il y a plusieurs groupes différents de gens qui réagissent à certains stimuli et d’autres qui ne réagissent pas. Donc il est extrêmement difficile, je pense, de trouver quelque chose de très fiable. Il faut être très malin dans la façon de construire les systèmes pour extraire des informations de comportement, donc il faut être très précis en fait sur ce qu’on veut atteindre.
Carole Lailler : La clé c’est ça, c’est ce qu’on veut au final. On voit quand même bien, en dehors de l’expérimentation en labo, la difficulté d’un outil qui nécessite un prélèvement de salive en amont et en aval d’une situation, effectivement. Cette idée de calibrer ce que l’on cherche à faire en restant humble, pour le coup travailler avec beaucoup d’humilité, c’est réellement un point d’ancrage à bien avoir en tête.
Jean-Luc Marini : C’est clair. Pour terminer sur une note un peu plus ludique, je crois, Laurence, que vous avez beaucoup travaillé sur des robots humanoïdes, des agents conversationnels capables de détecter des émotions chez les êtres humains que nous sommes. Je crois que vous leur avez même consacré un livre. Est-ce qu’un robot dit émotionnel peut nous donner l’illusion qu’il ressent des émotions ?
Laurence Devillers : C’est effectivement une très bonne question. Merci d’avoir parlé de ce livre, Les robots émotionnels, que j’ai sous-titré Santé, surveillance, sexualité et l’éthique dans tout ça. Les robots n’ont pas d’émotions, pas de sentiments, pas d’hormones de désir ou de plaisir, pas d’intentions propres, je pourrais continuer, pas de conscience, etc., mais on leur en prête. Donc ils sont capables d’imiter sans ressentir, de parler sans comprendre, de raisonner sans conscience. Par contre, nous sommes tout à fait, dans différentes situations, capables de les humaniser. C’est donc cet anthropomorphisme, c’est-à-dire cette projection des capacités humaines qu’on fait sur les machines, qui pose problème et non. Disons qu’il faut comprendre parce que derrière il pourrait y avoir des risques de manipulation de ces machines, on prendrait plus soin de la machine que des êtres humains à côté de nous parce que la machine serait toujours bienveillante et toujours de notre avis ; on deviendrait dépendants affectivement, on s’isolerait des humains, on perdrait une certaine liberté parce que ce serait la machine qui déciderait pour nous et puis, surtout, ça va amplifier les stéréotypes.

Comme je l’ai dit tout l’heure, il y a 80 % des informaticiens qui sont des garçons, il y a 80 % des artefacts qui ont des voix, des noms féminins – Alexia, Sofia – quand ce ne sont pas des robots humanoïdes, comme vous le dites, qui sont donc très féminins. On en fait des assistants serviles, des robots compagnons ou des robots sexuels, mais cette représentation de la femme à travers toutes ces machines, agents conversationnels ou robots, est « questionnante » parce que c’est meta. Chaque fois que j’ai rencontré des industriels qui parlaient des systèmes qu’ils mettaient en place ils me disaient : « J’ai fait des tests – Ah, très bien, vous avez fait des tests » et je respectais tout à fait ça. Ils avaient effectivement fait des tests tout à fait honnêtes, fiables, etc. Les hommes préféraient des voix de femmes la majorité du temps, surtout quand elles sont là pour prendre soin, donner des renseignements, etc. Quand il s’agit d’un médecin, on préfère une voix d’homme, d’où le stéréotype. Et de l’autre côté, quand on demandait aux femmes : « Vous préférez quoi ? », elles préféraient aussi des voix de femmes. Vous voyez ! Donc si on garde en tête que les préférences vont toujours aller vers des voix de femmes, nous serions environnés, et c’est un peu la petite fiction que j’écris au début de ce livre, d’objets féminisés qui nous répondent, que ce soit la voiture, votre montre, le frigo pourquoi pas, l’agent conversationnel robotique qui s’occupe de la maison, votre téléphone et tout un tas d’objets qui synchronisent votre vie, qui vous parlent avec une voix féminine et qui vont finalement décider pour vous.

La petite scène qui introduit mon livre c’est complètement l’idée de montrer que pour vous aider avec bienveillance, pour vous assurer une meilleure santé, je peux aussi vous faire vivre un enfer qui est que vous ne décidez plus rien du tout pour vous. La machine vous prend rendez-vous pour le médecin, décidant, elle, que vous avez besoin de ça ; l’assurance augmente ses prix dès que vous prenez un verre d’alcool, etc.
Jean-Luc Marini : C’est très clair !
Laurence Devillers : On se fait une idée des robots « émotionnels », émotionnels entre guillemets, les émotions dans les robots n’existent pas.

Par contre, on va de plus en plus loin dans l’imitation de l’humain à travers ces machines, dans la ressemblance à l’humain, donc il peut y avoir une confusion. C’est en ça qu’il faut se questionner : faut-il aller aux frontières de l’humain dans la ressemblance ?

Et pour l’intériorité qui n’existe pas, il n’y a pas de corps, il y a pas de viscères et il n’y a pas de conatus comme en parle très bien Spinoza, donc il n’y a pas d’étincelle de vie, il n’y a pas de désir, eh bien il y a quand même des chercheurs – j’en ai rencontré notamment au Japon, en Australie – et je pense qu’il y a plusieurs laboratoires qui s’intéressent à ça, à mettre une espèce d’homéostasie à l’intérieur de ces machines, c’est-à-dire des façons de régler le plaisir, la douleur, les émotions qui nous, humains, nous faut réagir, nous font nous enthousiasmer, nous font créer, nous font avoir ces intuitions. Comment, dans une machine, pourrait-on simuler, puisqu’il n’y a pas, encore une fois, de viscères, il n’y a pas de vivant, avec juste des programmes, les différentes notions de plaisir, de douleur, pour que la machine ait des intentions ?

Plus on s’approche, en fait, des comportements de l’humain, plus on tend à brouiller ces frontières et plus il est nécessaire d’apprendre comment va interagir avec ces machines demain.
Carole Lailler : Ça devient angoissant.
Jean-Luc Marini : C’est tout à fait clair.

Merci beaucoup à vous deux pour cet échange qui, je l’espère, aura passionné nos auditeurs.
Laurence Devillers : Ça ne doit pas être si angoissant que ça, il faut rester raisonnable. Ils sont plutôt sympa quand on travaille avec.
Jean-Luc Marini : Exactement. Je crois d’ailleurs, Laurence, que vous avez publié dernièrement un autre ouvrage qui, pour le coup, est sur un autre sujet, même si on est toujours assez proche, qui est sur la souveraineté numérique dans l’après-crise.
Laurence Devillers : Oui.
Jean-Luc Marini : Vous pouvez nous en dire un petit peu plus sur le contenu de cet ouvrage ?
Laurence Devillers : En fait, pendant la crise, on s’est quand même rendu compte qu’on était dépendants des acteurs chinois pour les médicaments, les masques et tout un tas de choses qu’on ne crée plus ; il n’y a plus d’industries en France et en Europe pour produire ces différents produits dont on a besoin. Eh bien, de la même façon, il faut qu’on se questionne sur la souveraineté et la gouvernance de l’IA puisque on s’est rendu compte, pendant la pandémie, qu’on avait tous besoin d’être connectés, que finalement la télémédecine a fait un bond incroyable. Peut-être que si on avait eu des robots pour désinfecter des endroits, on aurait évité à des gens d’être contaminés. Cette distance que permet d’avoir la machine est très importante. On s’est donc rendu compte de l’intérêt de ces systèmes et on a vu arriver très vite des solutions, Zoom, pour toute l’interaction qu’on a sous différents systèmes de télévision et que c’était avant tout les GAFA qui avaient ces objets. De la même façon, Facebook a, par exemple, proposé des iPad dans les Ehpad, dans les maisons de retraite.

Donc ils ont mis le pied dans la porte dans beaucoup de secteurs, en santé, en éducation, pour l’assistance aux personnes âgées, et d’autres encore, donc il est nécessaire que l’on prenne réellement conscience qu’on n’est pas maîtres, en ce moment, des décisions sur le numérique. On l’a très bien vu avec le StopCovid ; peu importe si vous êtes pour ou contre le StopCovid qui était un algorithme de traçage. Il y a quand même une un paradoxe énorme ; on met beaucoup nos données sur les réseaux sociaux – Instagram ou autres – sans se préoccuper de la partie de vie privée ou d’intimité que l’on met sur le réseau. Et là on demandait à la population de s’inscrire sur un système pour essayer, avec une pseudonymisation de chacun, c’est-à-dire sans envoyer le numéro de téléphone de chacun, en étant protégé, en envoyant ses données sur un serveur qui aurait pu les utiliser pour mieux comprendre comment la pandémie se développait ou, au contraire heureusement, était plus restreinte. Mais là on a vu un tollé sur tous les médias disant « que fait-on de nos libertés ? », parce que c’était quelque chose que le ministère de la Santé allait gérer. Les serveurs étaient chez Thalès et on a eu peur de cette gouvernance, finalement de notre démocratie, alors qu’on n’a pas peur de mettre toutes nos données sur tous les agents que sont les GAFA, Google, Apple, Facebook, Amazon, Microsoft, IBM. Donc à un moment donné il faut se poser la question : pourquoi ?
Jean-Luc Marini : Vous avez tout à fait raison. C’est d’ailleurs un sujet d’actualité dont on parle aussi dans un autre domaine qui est celui de la Défense, de la sécurité, où effectivement la souveraineté numérique pose question.

Écoutez, merci beaucoup Laurence pour l’ensemble de ces explications.
Laurence Devillers : Merci.
Jean-Luc Marini : Merci Carole d’avoir accepté cet échange à trois voix et puis à très bientôt pour un prochain Lab Pod. Bonne soirée à vous.
Carole Lailler : Merci.
Laurence Devillers : Merci Carole. Merci à vous. À bientôt.
Carole Lailler : Merci à toi.
Jean-Luc Marini : À bientôt.</em

Libre à lire !

La reconnaissance d’émotions dans la voix – Partie 2

Transcription

Le prix du gratuit - Emmanuel Revah - RMLL 2018

Émission Libre à vous ! diffusée mardi 22 novembre 2022 sur radio Cause Commune

Reconnaissance faciale : « On crée l’accoutumance »

La reconnaissance d’émotions dans la voix – Partie 1