Merci beaucoup, Gérard et Junia, pour l’invitation. Je me sens évidemment chez moi à Sens public, je me sens à moitié invité et à moitié chez moi, donc merci beaucoup.
GAFAM, États et pouvoir
Je vais essayer de faire un peu le tour sur ces sujets que Gérard a bien anticipés, qui sont un peu au centre de ma réflexion et de la réflexion de Sens public désormais depuis longtemps. En réalité, je ne pense pas qu’il y ait grand-chose qui ait changé récemment, par contre certaines choses deviennent de plus en plus évidentes qu’elles ne l’étaient peut-être pas autant il y a quelques années. Typiquement, comme Gérard le disait tout à l’heure, on a vécu une phase d’enthousiasme, d’espoir et d’idéalisme liée aux espaces numériques qui, je pense, doit finir, qui, probablement, a pris fin depuis au moins une quinzaine d’années, c’est-à-dire depuis que cet espace rêvé, par exemple par Barlow à l’époque de la Déclaration d’indépendance du cyberespace [1] , dans les années 90, s’est rempli d’une série de sociétés aux objectifs économiques très clairs.
Je disais dans mon livre Éloge du bug, qui est sorti l’année dernière à La Découverte, que certaines personnes, certains chercheurs, certaines chercheuses pensent que les États pourraient être une limitation à la puissance de ces quelques sociétés. Il me semble que la photo que je vous montre de la prise de pouvoir de Trump, donc du public à la prise du pouvoir de Trump, peut justement nous faire désenchanter par rapport à cette idée que les États, au moins nos États soi-disant démocratiques, occidentaux, puissent vraiment se mettre en tant que résistants contre les GAFAM. Vous voyez les personnes qui ont clairement prêté allégeance au gouvernement Trump, qui sont les principaux acteurs et protagonistes des espaces numériques tels qu’on les connaît aujourd’hui, c’est-à-dire fortement, exclusivement, occupés par une poignée d’entreprises. Là vous voyez Facebook, vous voyez Amazon et Musk qui prend de plus en plus de place notamment avec son rôle dans le développement des dernières applications basées sur les LLM [Large Language Models] dont je vais dire quelques mots tout à l’heure.
Donc cette convergence entre ceux qu’on appelle les GAFAM – Google, Amazon, Facebook, Apple, Microsoft, on pourrait rajouter OpenAI actuellement et une poignée d’autres, l’ex-Twitter, etc. –, la convergence de leur vision du monde, de leur volonté, de leurs actions et des pouvoirs étatiques.
La pensée est une inscription matérielle
La réflexion qu’il nous reste à faire est donc une réflexion urgente, à mon avis, c’est-à-dire qu’il faut commencer par se rendre compte du fait qu’il n’y a pas d’outils. À mon avis, le point qui doit être notre début, c’est la rhétorique des GAFAM, la rhétorique de ces grands outils et de ces grandes plateformes qui a toujours été de dire « ne vous occupez pas de nous, nous sommes transparents, nous ne faisons que résoudre vos petits problèmes. Nous proposons des services, des solutions justement, et vous pouvez vous occuper de choses plus importantes pendant que vous appuyez sur Google Maps pour trouver votre chemin, sur Microsoft Word pour écrire, sur Google Search pour chercher des choses, etc., et maintenant sur ChatGPT pour écrire, lire, évaluer et faire n’importe quoi. » On le voit peut-être un petit peu plus avec ce qu’on appelle les IA génératives, je vais faire une critique de ce mot tout à l’heure, mais ce n’est pas du tout vrai.La pensée est toujours une inscription matérielle.
Je dirais non seulement que les outils conditionnent la pensée, non seulement, un peu plus fort, que les outils font la pensée, mais plutôt que la pensée est sa manifestation matérielle, c’est-à-dire que la pensée qu’on peut exprimer dans un document docx est dans le format docx. On ne peut pas penser autre chose que le format, c’est vrai, et ça va être mon point central d’aujourd’hui.
Si vous voulez un message de départ, a take-away message pour ne pas écouter ce qui suit, le message serait le suivant : ne nous faisons pas prendre par ces messages médiatiques qui voudraient qu’il faudrait soi-disant s’inquiéter de qu’on appelle les IA génératives, parce que c’est impressionnant, ChatGPT écrit des textes, qu’est-ce qui se passe, alors que ce n’est pas seulement un auteur qui écrit des textes mais aussi un algorithme et ça aurait vraiment un effet important, mais toutes les autres choses, peu importe ! Si le format utilisé est docx ou pas, si j’utilise un système d’exploitation ou un autre, si j’utilise un protocole éditorial ou un autre, si je suis sur un serveur plutôt qu’un autre, tout cela c’est de la petite technique qui n’est pas importante, qui n’a aucun impact sur notre réalité de vie ! Faites attention ! Non ! La pensée émerge toujours dans un contexte matériel dont font partie aussi le format du fichier que vous utilisez, la situation géographique du serveur dans lequel vos données se trouvent, le protocole de compression des données d’une vidéoconférence, etc. C’est-à-dire qu’il y a autant d’implication à choisir son outil d’écriture, donc choisir Word plutôt qu’un autre, sur ce qu’on peut penser, qu’aller faire écrire son texte complètement par ChatGPT, c’est le même type d’impact.
C’est mon point, je pense qu’on ne s’en rend pas assez compte aujourd’hui et je vais essayer d’en parler un petit peu.
Ce que nous devons essayer de faire, peut-être en prenant l’occasion de cette explosion devant laquelle nous nous trouvons, entre des outils très présents et qui, désormais, envahissent la totalité de nos actions et de nos vies et justement cette concentration politique et monopolistique de ces outils en une poignée de personnes. L’image de la prise de pouvoir de Trump témoigne peut-être de cette situation dans laquelle nous nous trouvons aujourd’hui, de cette concentration de pouvoir politique et technologique dans les mains d’une dizaine des personnes et entreprises. On peut partir de cette situation pour avoir une réflexion un peu plus globale que nous aurions dû avoir, et que certains et certaines d’entre nous ont déjà depuis au moins 30 ou 40 ans, peut-être même plus parfois.
Ce qui m’énerve un peu dans la situation d’aujourd’hui c’est que l’attention médiatique sur certains phénomènes, certaines applications, je le nomme encore, ChatGPT, est immense comme si c’était quelque chose de complètement nouveau et révolutionnaire. Il y a plein des discours qui se développent sur cette chose qui semble si révolutionnaire et il y a eu très peu d’attention dans les discours un peu plus mainstream sur le fait qu’il y a des disciplines et des personnes, chercheuses et chercheurs, qui réfléchissent à ces questions depuis justement 40, 50, parfois 70 ans, donc ce n’est pas nouveau du tout. Ce sont nos réflexions à propos des implications de la structuration des espaces numériques, qu’on développait déjà à la fin des années 90, début des années 2000, qu’il faut continuer à développer aujourd’hui. Il faut se rendre compte justement à quel point ces enjeux d’architecture technologique sont au cœur de nos possibilités de production de la pensée.
Le risque
Quel est le risque que nous courons et qui n’est pas nouveau, risque qui est bien représenté justement par cette image d’Aladin ?
Le risque, c’est de croire que les technologies sont fondamentalement neutres. C’est la rhétorique que j’appelle justement du solutionnisme, c’est la rhétorique du simple intuitif performant, c’est la rhétorique selon laquelle nous avons devant nous des outils neutres, qu’on peut mesurer sur une échelle qui est une échelle unique – il y a les moins bons, les meilleurs, encore meilleurs –, que la manière d’évaluer ces outils serait tout simplement de regarder à quel point ils sont performants, d’abord, intuitifs et simples.
Cette rhétorique est évidemment la rhétorique de la Silicon Valley, c’est la rhétorique des GAFAM, c’est la rhétorique que nous vendent les Apple, Google, OpenAI, etc. En fait, ces sociétés nous donnent des solutions, il n’y a donc pas besoin de se poser la question. Des solutions à quels problèmes ? En fait, on ne se pose même pas la question, on a d’abord la solution.
Cela implique l’idée selon laquelle il y aurait une seule vision du monde possible, donc un seul numérique, une seule technologie, un seul type de valeurs pour comprendre le monde et évidemment, ce type de valeurs, du coup, devient complètement naturalisé, on ne peut pas le questionner parce qu’il n’est pas multiple, il est unique. Mais en fait, quand on regarde bien, il est situé, il est très spécifique, c’est une vision du monde qui a, en son centre, l’impératif de productivité, ce que j’appelle l’impératif fonctionnel qui est fondamentalement l’impératif selon lequel on peut évaluer toute action humaine, toute réflexion, toute pensée, tout objet, sur la base du fait qu’il produit, ou pas, de la richesse. C’est fondamentalement ça l’idée et c’est quelque chose qu’on peut appliquer évidemment à tout et n’importe quoi, c’est d’ailleurs au centre du capitalisme tel que Marx l’interprète. On peut l’appliquer un peu à n’importe quoi : typiquement on parle de capitalisme cognitif quand on dit aussi que le fait de lire ces beaux livres sur la plage augmente msn capital culturel, donc même lire des livres sur la plage peut être inséré à l’intérieur de ce paradigme-là.
« La solution » unique
Ce paradigme, cette rhétorique de la solution unique, puisque, finalement, on ne peut faire qu’une chose dans le monde, il y a une solution pour la faire le mieux possible et cette solution pour la faire le mieux possible devient de plus en plus concentrée. En fait, dans le cas des applications actuelles, on voit encore plus une concentration d’usages vers des boîtes noires, typiquement ChatGPT qui commence à prendre un rôle fondamental, c’est-à-dire qu’on peut lui faire faire tout et n’importe quoi.
Ce que je voudrais poser comme question, c’est « que fait cet algorithme, cette application basée sur des algorithmes ? Que fait cette application ? À quel problème répond-elle ? À quels besoins propose-t-elle une solution et surtout avec quelle vision du monde propose-t-elle une solution ? » Cela vaut pour ChatGPT, mais ça vaut aussi pour Word, ça vaut aussi pour les correcteurs orthographiques que vous choisissez, ça vaut aussi pour Zoom ou Jitsi [2] : à quoi, à quelle question répond cette solution ?
Zoom répond à un besoin ? Lequel ? Selon quelles valeurs ? Qu’est-ce qu’une vidéo-conférence ? Qu’est-ce qu’une rencontre selon Zoom ? Quelles sont les valeurs qui doivent être mises en avant, qui doivent être au centre de la rencontre selon Zoom ? Si on prend la peine de faire l’analyse, on se rend compte qu’elles sont très différentes de celles qui sont au centre de Jitsi ou de celles qui sont au centre de BigBlueButton [3] ou de celles qui sont au centre d’autres applications, d’autres approches et d’autres protocoles.
Cette réflexion est centrale si nous voulons éviter cette rhétorique de la solution unique, parce que la rhétorique de la solution unique implique justement une universalisation d’outils qui implique une uniformisation et une généralisation de la pensée. On ne peut penser qu’une chose On ne peut avoir que certaines valeurs qui deviennent justement naturelles. Quand je dis qu’elles deviennent naturelles, c’est qu’on ne les voit même plus, ça nous semble quelque chose qui va de soi, de nécessaire, de transparent, qu’on ne voit plus, donc qu’on ne peut pas questionner.
Une fausse littératie
Cette rhétorique est alimentée par un discours très courant et très courant hélas aussi dans le domaine de l’éducation et dans le domaine de la pédagogie. Peut-être commence-t-on à voir des noyaux de critique qui se développent depuis quelques années mais très timidement. C’est cette idée selon laquelle la littératie serait fondamentalement apprendre à faire ce que les GAFAM veulent que nous fassions. Fondamentalement, qu’est-ce que la littératie : être capable d’utiliser un iPhone, être capable d’utiliser Google Search, être capable d’utiliser Zoom. Fondamentalement, la littératie serait le fait de modeler nos esprits pour les adapter aux technologies. Nous devons changer, nous devons formater toute forme de pensée, toute forme d’action pour qu’elle s’adapte à ce que les GAFAM nous proposent.
Ce type de littératie est omniprésent, si vous y réfléchissez un peu, et donne lieu à des choses aberrantes sur lesquelles on réfléchit très rarement. Je pense par exemple à l’usage complètement aberrant de ChatGPT, j’en reparlerai, par exemple ChatGPT comme moteur de recherche, c’est typiquement un usage complètement aberrant, c’est-à-dire que nous changeons ce que nous cherchons et c’est qu’est, pour nous, chercher des informations, pour adapter nos pratiques à un outil qui fait tout autre chose. C’est pratiquement comme si j’avais envie d’aller au Brésil pour rendre visite à Junia et Gérard, que j’avais à disposition une scie électrique et que j’essayais de transformer la scie électrique en outil pour venir au Brésil, j’y mettrais par exemple des pneus et j’essayais de venir. C’est plus ou moins le même type de réflexion.
D’autres usages aberrants : typiquement Word et le format docx pour écrire des essais et des articles en sciences humaines, une chose sur laquelle j’ai beaucoup travaillé, je pourrais entrer dans les détails éventuellement plus tard s’il y a des questions.
Un autre usage aberrant c’est WhatsApp. WhatsApp, typiquement, est devenu un canal de communication centralisé pour tout type de communication, détruisant les spécificités des différents types de communication qui sont hétérogènes et basés sur des valeurs différentes. Juste pour faire un exemple : le fait d’échanger des documents via WhatsApp, qui est fait typiquement pour avoir juste une rétrochronologie presque linéaire, il est donc impossible d’accéder à un document une fois qu’il est submergé dans un flux. Mais nous changeons nos pratiques, on s’habitue donc à scroller pendant des heures pour y trouver une photo. Au lieu de chercher un autre système pour partager une photo, parce que, quand je partage la photo, je veux qu’elle soit disponible, quand je la cherche je veux pouvoir la trouver, au lieu de faire ça – il y aurait des millions d’outils, de protocoles, de systèmes pour le faire – j’adapte mon besoin à la technologie, donc je n’ai plus de photos, j’ai juste des flux alors que je voulais des photos.
On change donc sa manière de voir le monde et, en fait, on ne s’en aperçoit même pas, parce qu’on se dit « quelle importance ? Peu importe que j’envoie ma photo via WhatsApp, via e-mail ou que je la dépose sur une archive en ligne, c’est pareil, le résultat est le même. C’est juste un outil, c’est juste de la technique. » Pas du tout ! En fait, je suis en train de changer radicalement ce que je suis en train de faire. Je ne fais plus la même chose. Non seulement je ne fais plus la même chose, mais je deviens même incapable de la penser, je suis incapable de penser que ce que je voulais c’était partager une photo, je ne peux plus le penser et ça devient le flux conversationnel. Mais le flux conversationnel n’est pas un changement social, il est d’abord, et là et on est vraiment dans un techno-déterministe, dans l’implémentation de l’application qui s’impose juste parce qu’elle est tellement présente qu’on ne peut plus s’en passer, qu’on ne peut plus raisonner autrement.
Une véritable littératie
À cette fausse littératie s’oppose une littératie qui se base sur le questionnement, qui n’est pas un savoir-faire technique, c’est-à-dire que ce n’est pas un savoir utiliser, mais plutôt un savoir se questionner, je me pose des questions : qu’est-ce que je veux faire ? Qu’est-ce que je suis en train de faire ? Quelles sont mes valeurs ? Quelles sont mes priorités ? Quelles sont mes préoccupations ? Quelles sont mes règles morales ? Quelle est mon éthique ? Quels sont mes principes politiques ? Qu’est-ce que je veux faire ?
La réflexion, après, peut partir un peu partout. Elle implique un bricolage, c’est-à-dire qu’elle implique remettre en question l’idée selon laquelle on peut avoir une solution toute prête, elle implique se salir les mains et elle implique aussi mettre en question que, dans une hiérarchie, il y a des choses plus importantes et des choses moins importantes, c’est-à-dire je laisse cela aux techniciens, je pense que ce n’est pas important, mais, en fait, ce n’est pas comme ça.
Pour comprendre ce que veut dire penser et pour être capable de penser, il faut se salir les mains, il faut bricoler, il faut essayer de comprendre les enjeux, poser des questions, démonter. Ça veut dire aussi faire dysfonctionner, parce que, évidemment, ce questionnement porte à ralentir, porte à des choses qui ne sont pas productives parce que se poser des questions, c’est toujours perdre du temps, ce n’est jamais quelque chose qui augmente la productivité. Ce n’est pas une utilisation mais c’est une mise en place active d’un environnement de pensée.
Le principe de la low-tech [4], de cette contradiction par rapport à la hight technology est, à mon avis, un principe très important. Un collègue fait cette équation : plus on a de connaissances techniques, plus on utilise de la technologie de bas niveau ; moins on a de compétences techniques, plus on utilise de la technologie de haut niveau. C’est-à-dire que quelqu’un qui est complètement illettré numériquement va utiliser les derniers iPhones parce que c’est, en effet, plus facile à utiliser. Quelqu’un qui a une littératie très poussée va utiliser un vieil ordi parce qu’il se rend compte qu’il a besoin juste de ça, il est capable de le démonter, de changer la mémoire, de rajouter un peu de RAM s’il en a besoin, etc. Il est capable, s’il veut, de bricoler son propre environnement. Donc plus on a de compétences, moins on a besoin de technologies compliquées. Je pense que c’est une bonne manière pour expliquer ce rapport apparemment paradoxal entre la compétence et le fait d’adopter des technologies. Si vous regardez, ça devient un pattern de plus en plus récurrent, même d’un point de vue statistique : n’importe quel informaticien, n’importe quel technicien ou technicienne de haut niveau, sera très souvent réfractaire à utiliser des hautes technologies, donc la dernière chose sortie, parce qu’il va se rendre compte de tous les problèmes que ces technologies peuvent poser et il va avoir la littératie pour répondre à ses propres besoins avec d’autres solutions.
Gérard et moi partageons une passion, la voile, et Gérard pourra me suivre complètement dans ce rapport entre niveau de compétences et besoin des technologies plus basses. Un bon marin n’a pas besoin d’un GPS, le GPS est nécessaire à un mauvais marin qui regardera son GPS ; un marin avec des compétences très élevées peut se passer de GPS. Nous sommes en plein Vendée Globe et nous savons que les marins, même s’ils sont de très bons marins, utilisent des GPS, mais ils pourraient s’en passer. Si l’ordinateur de Clarisse Crémer s’éteint, ce qui est arrivé, elle est capable de continuer à naviguer si elle est un bon marin. Le bon marin a une littératie telle qu’elle lui permet d’être capable de se situer dans l’espace marin. Il est capable aussi de comprendre les besoins qu’il a par rapport à sa technologie. Il sait bien évidemment, par exemple, que pour passer entre les cailloux de Concarneau et de l’archipel des Glénan l’alignement est beaucoup plus précis qu’un GPS et on ne peut pas faire du rase-cailloux avec un GPS. On aura une technologie beaucoup plus basse, un alignement à la vue, on regarde la mer et c’est comme cela qu’on navigue. Donc technologie beaucoup plus basse et compétences beaucoup plus élevées. Et c’est encore plus vrai dans le domaine du numérique.
Qu’est-ce que l’IA ?
Pour finir, on ne peut pas, aujourd’hui, parler de numérique sans parler d’IA. Ce qui m’énerve, c’est que notre société fonctionne toujours grâce à des mots clés. À un moment c’était « virtuel », j’ai écrit un livre sur le virtuel [Corps">et virtuel. Itinéraires à partir de Merleau-Ponty], puis c’était « numérique », maintenant ce n’est plus numérique, c’est « intelligence artificielle ». Fondamentalement, qu’est-ce qu’on veut dire avec ces termes-là ? Très souvent pas grand-chose, ce sont des modes médiatiques. « Intelligence artificielle », aujourd’hui, a pratiquement remplacé l’ancien mot « numérique ». Il y a eu la mode des nouveaux médias par exemple, ou nouvelles technologies, maintenant c’est intelligence artificielle.
Qu’est-ce que l’intelligence artificielle ?
Je voudrais d’abord questionner ce terme pour faire comprendre que la réflexion que nous devons faire aujourd’hui n’a pas changé, c’est le même objet que quand nous réfléchissions au numérique ou au virtuel ou aux nouvelles technologies. C’est la même question, rien n’a changé, et le terme intelligence artificielle, tout comme numérique, tout comme virtuel, est un terme qui pose beaucoup de problèmes, il faut peut-être en être conscient.
D’abord c’est une notion absolument vague. Intelligence artificielle, concrètement, ça ne veut rien dire.
C’est une suite d’algorithmes, des algorithmes qui sont très hétérogènes et très différents. La notion d’intelligence artificielle est dans l’air et on en parle depuis au moins 70 ans, au moins 75 ans si on prend comme point de départ l’article de Turing, Computing Machinery and Intelligence [5] qui est de 1950, donc 75 ans. Encore une fois Gérard pourrait nous l’apprendre, depuis Leibnitz, depuis Pascal, depuis Raymond Lulle, donc au Moyen Âge, on parlait déjà d’intelligence artificielle, l’intelligence artificielle n’est pas un phénomène récent. Liée à l’informatique telle que nous la connaissons aujourd’hui ou encore, plus précisément, liée à l’électronique, ça existe depuis 75 ans. Dans les années 50, on a commencé un programme explicite de ce qu’on appelait déjà intelligence artificielle, mais en fait dans la lignée d’études, de réflexions qui étaient propres à Descartes, comme à Leibnitz, comme à Pascal et bien avant eux. C’est donc une notion très vague.
Aujourd’hui, en plus, on ajoute un mot qui est complètement débile, qui est « générative », qui ne veut absolument rien dire, « intelligence artificielle générative » comme s’il y avait quelque chose de différent entre ChatGPT et un algorithme qui prédit, par exemple, l’heure du lever du soleil demain matin. En fait, ce sont deux algorithmes qui n’ont rien à voir l’un avec l’autre : un algorithme est déductif, l’autre est inductif. Un algorithme est un système expert, l’autre non, c’est un système de projection statistique, c’est donc un système probabiliste, mais les deux peuvent être appelés « intelligents ». Un algorithme qui prévoit à quelle heure se lève le soleil demain est intelligent, il fait quelque chose d’intelligent, et les deux peuvent être appelés « génératifs ».
Concrètement, que veut dire « génératif » ? C’est la propriété de n’importe quelle fonction, c’est-à-dire qu’une fonction prend en entrée un input, elle nous donne un output : 1 + 1, la fonction génère 2 ; e, le nombre d’Euler au carré, donne 7,38, etc.
Turing, en 1951, réfléchit justement à la question de nouveauté et au fait d’être surpris par les algorithmes. Il répond à une objection d’Ada Lovelace [6] selon laquelle un algorithme ne pourra jamais rien faire de nouveau et Turing dit « je ne sais pas trop ce que veut dire nouveau. Si nouveau veut dire quelque chose qui me surprend, en fait les algorithmes me surprennent tous les jours, je leur fais faire des calculs mathématiques, ils me sortent des résultats que je n’aurais jamais pu anticiper, je suis très surpris, je ne saurai jamais les faire. C’est très intelligent, c’est plus intelligent que moi parce qu’il fait une chose que je ne suis pas capable de faire. » En général, c’est le f(x) qui donne y ; 9 !. Vous avez tous les trucs.
En fait, que fait un algorithme de génération du texte ou, encore plus précisément, comment fonctionne un Large Langage Model, un LLM, un grand modèle de langage ? En fait, il fonctionne de la même manière : il prend en input une série de tokens qui se trouvent être des mots, mais lui ne sait pas que ce sont des mots, il a fondamentalement une série de caractères, qu’il tokenise d’une manière ou d’une autre pour les diviser en unités. Cette série d’unités qu’il prend en entrée c’est son input, comme le 1 + 1 de la première fonction que vous voyez ici, et il donne un output qui est juste une distribution de probabilités sur le dictionnaire qu’il a à disposition. Donc This is my, friend, dad, love, dog, etc.
Un autre algorithme, par exemple, qui utilise des LLM pour voir des correspondances entre des espaces linguistiques différents : je prends le vecteur I love my wife, c’est fondamentalement un vecteur, c’est une série de chiffres, le modèle a transformé ces caractères en une série de chiffres, et, dans l’espace vectoriel anglophone, ce vecteur, qui est donc une série de chiffres, correspond, si on le projette dans l’espace francophone, à ce qui sera l’output, donc « J’aime ma femme » en français.
En fait, c’est la définition même des fonctions d’être génératives, « mais ChatGPT produit quelque chose de nouveau ». Qu’est-ce que veut dire nouveau ? En fait, ChatGPT produit une distribution de probabilités sur un dictionnaire, le dictionnaire est existant, la distribution des probabilités est existante dans les corpus, je ne sais donc pas ce qu’il y a de nouveau.
En même temps, en ce moment, quand je parle, est-ce que je suis en train de produire quelque chose de nouveau ? Là aussi, il faut définir ce que c’est que nouveau parce que, fondamentalement, j’utilise une langue qui existe, des mots qui existent, je les combine ensemble de manière plus ou moins statistiquement correcte, sinon je parlerais une langue qui n’existe pas, et je dis des choses qui ont déjà été dites non seulement par moi d’autres fois mais par plein d’autres personnes, donc qu’est-ce qui est nouveau, ou pas, et comment le calcule-t-on ? En fait, il faudrait bien définir cette idée de nouveauté. Je pourrais faire une conférence à part sur cela parce que je l’ai un peu travaillé. J’ai travaillé aussi un peu aussi sur les maths qui pourraient servir pour définir ce qui est nouveau ou pas.
Donc tout est génératif, arrêtons de parler d’IA et arrêtons de parler de générative.
LLM
Si on fait quelque chose d’un peu plus spécifique et qu’on s’arrête un instant sur les LLM, Qu’est-ce qu’un LLM, un grand modèle de langage ?
C’est un modèle, donc une représentation de la langue, qui est dérivé d’un algorithme, qui est entraîné à deviner le token suivant, à partir d’un contexte donné, sur la base d’un grand corpus. Je lui donne « mon animal préféré est » et lui doit deviner le mot qui vient après. Il est entraîné comme ça, sur le corpus.
Il produit donc une représentation numérique de la langue, c’est-à-dire que chaque token et chaque phrase sont transformés en une série de chiffres, vous pouvez imaginer ces chiffres comme des vecteurs, en gros des choses qui ont une position dans l’espace sémantique.
Ça me permet de calculer du sens sur la base de la distribution statistique, donc de la distribution des probabilités dans un sens bayésien [7], du corpus observé. Ce sont des modèles probabilistes. Donc faisons bien attention, il y a une différence fondamentale entre le modèle qui est juste une représentation numérique de la langue et l’application. ChatGPT n’est pas un LLM, ChatGPT est une application basée sur un LLM, GPT est [Generative Pre-trained Transformer], dans ce cas, le LLM.
Le LLM peut être utilisé dans plusieurs applications. Par exemple, quand je l’utilise dans un chatbot, l’application utilise le modèle pour faire une chose particulière, pour faire quoi dans ce cas ? Pour tchatcher, pour bavarder, c’est dessiné pour bavarder, ça s’appelle comme ça, c’est à une application qui est dessinée pour bavarder ; elle utilise une représentation numérique de la langue pour être capable de bavarder, il faut l’avoir un peu en tête.
LxM
Aujourd’hui on parle de LxM [Large X model] de modèle de fondation [8], de frontiers model ou de foundation models, il y a une généralisation du principe des LLM. Vous pouvez rajouter des données. L’ordinateur est évidemment complètement agnostique par rapport au type de données. Il voit des séries de chiffres, si ces séries des chiffres sont des pixels dans une image ou des vecteurs qui représentent des mots, il n’y a strictement aucune différence pour l’ordinateur.
Des innombrables applications
Donc des innombrables applications. Encore une fois, je reviens à la question : le problème n’est pas l’outil mais que l’outil semble le seul.
C’est-à-dire que ChatGPT, finalement, est un parmi des milliards d’outils dont la plupart, d’ailleurs, sont plus intéressantes que ChatGPT, mais surtout dont chacun sert à quelque chose. Vous ne pouvez pas tourner une vis plate avec un tournevis cruciforme, ce n’est pas possible, si vous ne le savez pas, vous êtes incapable d’utiliser un tournevis. En fait, aujourd’hui, nous faisons tout ça ! Sans avoir aucune idée de ce qu’est un tournevis, nous nous entêtons à utiliser un cruciforme pour tourner une vis plate et sur cette base – d’ailleurs c’est ce que font les médias et c’est magnifique –, on s’énerve en disant « ChatGPT ne sait pas », par exemple « ChatGPT s’est trompé sur la date de naissance de Napoléon ». C’est exactement comme si quelqu’un disait « ce tournevis ne sert à rien, regardez, la vis ne tourne pas ! ». Oui, il est cruciforme et la vis est plate, donc il ne peut pas fonctionner, il n’est pas fait pour, il sert complètement à autre chose.
ChatGPT sert à bavarder, donc utiliser ChatGPT par exemple pour lui demander une traduction est aberrant ; utiliser ChatGPT pour lui demander une information est aberrant ; utiliser ChatGPT pour structurer de l’information est aberrant. La seule chose qui n’est pas aberrante, c’est utiliser ChatGPT pour faire ce qu’il sait faire c’est-à-dire bavarder. Je vois des usages, par exemple je veux faire du brainstorming, j’ai une idée, je lance l’idée et je demande à ChatGPT de me répondre ce qu’il en pense ou de me faire des commentaires, etc., c’est du bavardage, évidemment sans aucune volonté scientifique là-dedans, parce qu’il n’y a pas de critères de vérité, c’est vraiment comme bavarder. C’est exactement la même chose que quand je sors dans la rue, que je parle avec le premier passant qui me dit des choses vaguement sensées, qui ont un sens, qui ont une structure syntaxique compréhensible, donc je peux le faire.
Il y a des outils, là je cite vraiment des outils commerciaux, il y en a des millions, je vais en parler tout à l’heure.
Deepl pour traduire. Il fait tout autre chose, il utilise des modèles de langues pour regarder l’emplacement du vecteur de la phrase de départ dans l’espace linguistique de départ, admettons l’anglais, et il regarde le même vecteur dans l’espace d’arrivée. ChatGPT est construit pour deviner le mot le plus probable qui vient après votre prompt ; Deepl est construit pour aller chercher le vecteur le plus proche dans l’espace linguistique cible, donc, en fait, il fait une tout autre chose, même si c’est toujours basé sur un LLM.
Une correction syntaxique comme Deepl Write ou Quillbot : vous écrivez une phrase, par exemple « j’aime pas les chats ». Il regarde cette phrase, il regarde ce vecteur, il le transforme en une série de chiffres, il regarde le niveau de probabilité de cette phrase et il regarde s’il y a un vecteur semblable qui a un niveau de probabilité plus élevé. Il sera donc probablement capable, quand je dis « j’aime pas les chats », de dire que « je n’aime pas les chats » est plus probable que « j’aime pas les chats », donc de faire une correction syntaxique et de me la proposer.
Ce qu’on appelle les RAG, Retrieval Augmented Generation, la génération augmentée par récupération d’informations. Je sais pas si vous avez essayé NotebookLM de Google, encore un GAFAM, là ce sont des applications, comme je vous disais, grand public, toujours gafamisées, juste pour faire comprendre que des outils font des choses complètement différentes. À NotebookLM vous donnez une source et les réponses qu’il vous donne sont à partir de cette source, ça peut être un livre, ça peut être plusieurs livres, etc.
RAG et recherche il y en a plein, pour faire du code, texte vers audio, audio vers texte, etc., il y a d’innombrables possibilités.
Première réflexion. Si déjà on était capable de se poser la question : de quoi ai-je besoin ? même en restant dans les outils des GAFAM qui partagent quand même la plupart de leurs valeurs et qui sont proches de Trump, comme on le voit dans les photos, même en restant là on serait capable au moins de ne pas faire des choses débiles comme essayer, justement, de tourner une vis plate avec un tournevis cruciforme.
Des approches plus adaptées ?
Il y aurait aussi une réflexion un peu plus approfondie à faire, donc aller vers le bricolage que je vous suggérais tout à l’heure, par exemple nous rendre compte que nous travaillons à mettre en place des méthodes computationnelles. Au lieu de parler d’IA, parce que ça ne veut rien dire, parlons plutôt d’approches computationnelles et d’environnements computationnels. Nous travaillons depuis au moins 70 ans à imaginer et construire des environnements computationnels adaptés à des besoins très spécifiques.
Vous avez un exemple, c’est l’exemple de l’HTR, Handwritten Text Recognition. Oui, vous pouvez demander de le faire à ChatGPT, c’est exactement, encore une fois, un usage aberrant, faire faire à une application ce pourquoi elle n’est pas faite.
Vous pouvez utiliser des outils, par exemple eScriptorium [9] basé sur un algorithme qui s’appelle Kraken, une librairie Python qui s’appelle Kraken, qui est d’ailleurs développée par des universitaires juste pour faire de la transcription automatique de manuscrits.
Vous voyez qu’il y a des applications qui sont pensées pour et ce sont des choses qui n’existent pas depuis 2022 mais depuis beaucoup plus de temps.
Nous développons des algorithmes, des environnements numériques et des réflexions sur ces environnements depuis très longtemps. Il y a plein d’outils qui sont faits pour la recherche, pour l’enseignement, pour développer un certain type de pensée. Chaque outil, chaque environnement, chaque algorithme porte sa propre vision du monde et c’est cela qu’il faut aller chercher quand on parle d’humanités numériques, de text analytics, de cultural analytics, de HTR, d’analyse littéraire assistée par ordinateur. C’est ce que disait Jean-Guy Meunier, mon collègue hélas disparu l’année dernière, qui a développé une réflexion philosophique sur les modèles computationnels [Computational Semiotics] d’une richesse et d’une précision immenses et que personne ne cite, évidemment, parce que personne n’est capable de la lire.
Tout environnement technique est producteur de sens
Pour conclure, tout environnement technique est producteur de sens.
Je le répète et c’est peut-être par là qu’il faudrait commencer, je pense fondamentalement qu’une trentaine d’années de pensées ont été balayées par Word, je ne pense pas exagérer en disant que les derniers 30 ans de pensée ont été lissés par Word et son format qui a été pensé pour des usages très spécifiques, qui porte donc des valeurs très spécifiques. Typiquement, il a été pensé pour la bureautique, il a été pensé pour répondre à des besoins très spécifiques des petites entreprises et pour vendre à des petites entreprises, qui avaient déjà des machines à écrire, des ordinateurs alors qu’elles n’en avaient pas besoin parce que les machines à écrire faisaient mieux que ce que fait Word, mais c’est à cela qu’on a pensé et, en fait, nous nous sommes tous et toutes mises à écrire des documents bureautiques et on ne peut qu’écrire ça là-dedans. Écrivez un essai avec Word, vous allez sortir de la bureautique, vous ne pouvez pas sortir de là, ce n’est pas le modèle. Outre les problèmes de pérennité que ça pose, je suis sûr que la quantité de choses que nous allons perdre à cause de ce format-là en particulier est immense. Je suis sûr que dans 100 ou 200 ans on parlera d’un Moyen Âge numérique, celui de nos années à partir de 1990 jusqu’à… je sais pas si ce Moyen Âge numérique s’arrêtera, dans lequel il n’y avait aucune conception, comme on le dit pour le Moyen Âge. Les philologues de la Renaissance disaient que ces mecs n’avaient aucune idée, quand ils citaient Aristote, de qui était Aristote, de ce qu’était un document, des questions de vérifiabilité. De la même manière on dira « ces gens-là – entre les années 90 du 20e siècle et je sais pas quand – n’avaient aucune littératie éditoriale, donc de production de documents philologiques. Ils ont produit des choses qui n’ont aucun sens et qu’il faut aller rechercher un peu avec les pinces de la philologie pour voir si, dans cette époque-là – à l’intérieur de laquelle nous sommes –, on peut ressortir quelque chose qui a du sens ou pas » et probablement pas grand-chose n’aura de sens.
Donc faisons attention aux algorithmes, faisons attention aux formats, faisons attention aux protocoles, faisons attention aux interfaces. Essayons d’imaginer des infrastructures numériques qui puissent à chaque fois être adaptées à des valeurs précises, à des exigences précises, à des visions du monde précises, à des communautés précises, identifiables et identifiées. Il n’y a pas de solutions miracles, il n’y a pas une solution, il y a autant de solutions qu’il existe de questions possibles.
Je suis assez pessimiste, comme vous le voyez avec ma conférence, mais je crois beaucoup aux usages minoritaires, je crois beaucoup aux communautés, aux collectifs qui se forment et qui produisent leurs propres infrastructures. Une communauté comme Sens public peut produire ses propres infrastructures, ses propres usages, ses propres protocoles, ses propres modes d’échange qui seront probablement confidentiels, mais c’est dans cette limitation-là, dans le fait d’être précis, qu’on pourra faire dégager un sens, le nom même de Sens public le dit, un sens public mais partageable, précis et lié à des communautés et à des productions particulières.
Merci beaucoup.
[Applaudissements]
Questions du public et réponses
Junia Barreto : Merci Marcello. Vraiment très passionnant. Beaucoup de choses à dire.
Marcello Visati-Rosati : Merci.
Gérard Wormser : Comme avec Marcello nous nous connaissons très bien, il y a énormément de questions que nous nous poserions très facilement entre nous. Avant éventuellement d’en poser une, je voudrais savoir si, dans l’assistance, certaines personnes voudraient tout de suite une explication, un commentaire, poser une objection, et bien évidemment qu’on te remercie trois fois.
La première, comme tu l’as dit, parce que ça ne fait jamais qu’une vingtaine d’années qu’on réfléchit à ces questions sous différentes formes, que, ma foi, on n’a pas honte d’avoir anticipé certains problèmes et de savoir encore un peu les traiter aujourd’hui. Malgré tout, nous sommes quand même très inquiets de voir que, comme tu le dis, ces communautés minoritaires sont devenues pratiquement invisibles, comme certains animaux qui se cachent dans le désert, attendent en vain la pluie, survivent dans un petit trou à l’ombre en attendant d’avoir une occasion pour ressortir. C’est un écosystème dans lequel être archi-minoritaire à ce point peut rendre un peu désespéré.
La deuxième chose pour laquelle on te remercie, c’est pour les métaphores que tu fais, les transpositions d’une technique à une autre, d’un environnement humain ou naturel à un autre – l’océan, la montagne, la ville – tout cela est effectivement quelque chose qu’on oublie. On a une sorte d’aplatissement du monde comme si tout était régi par des écrans alors que, quand même, le réel dans lequel nous vivons n’est justement pas en deux dimensions, mais en bien plus que ça. C’est une deuxième chose pour laquelle j’ai envie de te remercier tout de suite.
La troisième chose, évidemment, c’est de nous rappeler que l’exigence intellectuelle ne date pas d’aujourd’hui et que, même dans ces scriptoria de temps anciens, nos analogues étaient déjà à se battre contre la vulgarité des usages qui aboutissait à des surcroîts de violence absolument inutiles, qui ont marqué toutes les époques dont nous pouvons nous souvenir.
Je crois qu’il y a aussi une dimension que tu n’as pas donnée parce qu’on ne peut pas tout dire, évidemment, quand on enregistre : à travers ces paradigmes techniques, dont tu nous as brossé les aspérités, se joue quand même une grande dimension de la conscience historique et sociale à laquelle ces algorithmes tentent de nous faire échapper.
Voilà, mais je vous laisse la parole, je ne continue pas.
Marcello Visati-Rosati : Pendant qu’on attend des questions, sentez-vous vraiment libres de prendre la parole.
Tout à fait. La question de la dimension historique me semble vraiment fondamentale parce qu’elle est oblitérée systématiquement dans le discours médiatique. On est dans la rhétorique de la révolution, dans la rhétorique du complètement nouveau, cette rhétorique qui était très bien incarnée par les discours de Steve Jobs quand il présentait ses nouveaux gadgets. On peut évidemment comprendre cette rhétorique, c’est-à-dire que je ne peux pas vendre mon nouveau gadget si je dis qu’il est pareil à celui que vous avez déjà. La rhétorique de la révolution sert bien ce type de discours commercial et hélas, les médias y croient et nous mettent rarement dans des perspectives longues ces choses.
Je pense que c’est ce qui arrive à chaque fois. Nous l’avons fait, Gérard, à l’époque, sur le concept de virtuel, sur le concept de numérique, etc. On l’a fait à chaque fois et je pense qu’il faut encore plus le faire aujourd’hui.
La convergence entre Covid et apparition de ChatGPT dans les médias en 2022 est une convergence assez intéressante, c’est-à-dire qu’il y a eu, à mon avis, une accélération d’une adoption généralisée des pratiques numériques monopolistes qui a été justifiée par une situation politique et sanitaire particulière et puis toute une série d’autres convergences. Ce que j’avais marqué, je le vois beaucoup parmi les collègues à l’université, tous les réactionnaires qui étaient contre le numérique sont passés à une adoption généralisée d’outils numériques sans s’en rendre compte. Ce n’est pas qu’ils disent « OK, là, maintenant, j’utilise Zoom tous les jours », non, ils pensent que cela n’est pas numérique, du coup ils ont adopté la première chose qui leur est arrivée dans les mains, alors que nous disions depuis longtemps, en tant que progressistes, « il faudrait regarder ce qui se fait de ce point de vue-là, ne pas prendre le premier outil qui vous tombe dans les mains, il faut quand même avoir une réflexion », et c’est un peu ce qui se passe. Quand on a la perspective historique, on peut se rendre compte du mouvement sur le long terme, donc se poser la question, justement, qu’est-ce qu’une rencontre ? Qu’est-ce qu’un séminaire ?, peut-être aller étudier ce qui s’est passé en Allemagne au 19e siècle pour se demander de quelle manière on devrait modéliser un séminaire en ligne au lieu de dire « j’achète l’application que la première entreprise me vend », c’est ce qu’ont fait les universités, on achète Zoom ou Teams et puis c’est fait.
Junia, tu voulais réagir.
Junia Barreto : Oui j’ai très envie. Il a plein de questions que j’aimerais poser, mais il y a quelque chose que j’aimerais te demander. J’ai trouvé vraiment très bien plusieurs choses qui sortent aujourd’hui de ton discours surtout par rapport à la littératie. Tu as mis deux côtés différents, la fausse, mais on est tous un peu dominés par les GAFAM et à faire ce qu’ils veulent qu’on fasse, et la véritable où tu mets questionner, etc.
Nous sommes tous les deux professeurs et la question que j’aimerais te poser, ce n’est même pas une question. Comment verrais-tu la façon de travailler cette notion de fausse, de véritable ? Comment peut-on éveiller les jeunes, qui sont avec nous, qui sont nos étudiants, qui sont nos doctorants ? On aimerait que ces gens pensent, qu’ils réfléchissent, qu’ils produisent quelque chose surtout à l’ heure actuelle, et qu’on est face à cette littératie. À mon avis, dans mon cas, mes étudiants, plutôt la majorité, même s’ils essayent un tout petit peu, sont complètement plongés dans ce que tu appelles la fausse littératie.
J’aimerais que tu parles un peu de la façon dont on pourrait travailler ça en tant que penseurs, en tant que professeurs, en tant qu’intellectuels auprès des jeunes.
Marcello Visati-Rosati : Merci beaucoup Junia. C’est évidemment une question fondamentale. Je dirais plus peut-être, ce n’est pas seulement nos étudiantes et nos étudiants, mais nous-mêmes sommes là-dedans.
La première chose, ma première piste, là je vais un peu dans le sens de ce que j’écrivais dans mon livre, celle qu’on pourrait appeler, pour ne pas utiliser le mot bug que j’ai déjà pas mal utilisé, une piste de dénaturalisation. Je pense qu’en général la pensée critique, et peut-être la philosophie, commence par une dénaturalisation, commence par une dé-familiarisation, c’est-à-dire questionner quelque chose qui semble évident. Le philosophe, la philosophe se posent des questions que les autres ne se posent pas parce que ça leur semble évident, il leur semble qu’il n’y a pas de problème, donc, s’il y a pas de problème pourquoi devrais-je me poser la question d’utiliser ou pas Word. J’utilise Word, quel est le problème ? Pourquoi devrais-je me poser la question du sens des étoiles ou pourquoi le soleil se lève tous les matins ? Évidemment, dans une vie quotidienne, naturalisée, je fait que le soleil se lève est là, OK, je n’ai pas besoin de me poser la question. La même chose nous arrive avec ces technologies-là. Pourquoi devrais-je me poser la question de ce que signifie avoir un téléphone vu que tout le monde a un téléphone, les usages sont là et voilà ? Pourquoi devrais-je me poser la question de ce que je fais quand je fais une recherche sur Google vu que, dans ma journée, je le fais dix millions de fois et jamais ça ne me pose question ? En fait, essayer de déclencher des questions, des questionnements, justement cet éloignement pour dire « peut-être que je peux me poser la question, que je peux m’interroger sur quelque chose qui ne me semble pas poser question ? »
La stratégie que j’utilise, je ne sais pas si c’est une stratégie qui fonctionne partout, en tant qu’enseignants et enseignantes, c’est essayer de dire « cette chose-là, qui te semble naturelle, qui te semble aller de soi, en fait elle pourrait être autrement, elle pourrait ne pas être. Qu’est-ce qui se passerait si elle était autrement ou si elle n’était pas ? ». Ça me semble un point de départ que d’arriver à être capable de prendre cette distance. À mon avis, le plus important serait d’arriver à mettre les personnes en capacité de dire : est-ce que je veux, ou pas, faire ça ? Savoir que je peux, peut-être, ne pas le faire ou je peux faire une autre chose. Ne serait-ce qu’ouvrir cette possibilité-là.