IA souveraine européenne et communs numériques IA Ethique Insider

Échange entre Daphnée Lucenet et Michel-Marie Maudet, cofondateur et directeur général de Linagora, sur les enjeux de la souveraineté numérique et des communs numériques en Europe. Michel-Marie partage son parcours et ses convictions sur l’open source, l’innovation responsable et les défis que l’Europe doit relever pour sortir des dépendances technologiques. Nous explorons également le projet Lucie et les perspectives futures de l’IA générative.

Daphnée Lucenet : Bienvenue dans IA Ethique Insider, le podcast qui explore les dilemmes, les tensions et les opportunités d’une intelligence artificielle au service du vivant et du bien commun.
Aujourd’hui, je vous emmène dans une aventure, la construction d’une IA souveraine, européenne, via l’open source et les communs numériques. J’ai le plaisir d’accueillir Michel-Marie Maudet, cofondateur et directeur général de Linagora [1] qui, depuis 25 ans maintenant, défend une vision profondément engagée du numérique à travers l’open source. Tu es ancien du ministère des Armées et tu incarnes vraiment aujourd’hui cette approche de la souveraineté numérique by design donc fervent défenseur, contre vents et marées, sur ce sujet. Avec Linagora vous développez des solutions open source, notamment pour s’affranchir des dépendances technologiques étrangères, je pense notamment aux GAFAM, et vous avez récemment lancé LUCIE [2]. via l’initiative OpenLLM [3]. Je te laisse te présenter, nous parler rapidement de LUCIE et d’OpenLLM et après nous aurons l’occasion de creuser chacun de ces sujets.

Michel-Marie Maudet : En tout cas merci pour l’invitation, Daphnée, je suis très content d’être avec toi cet après-midi.
C’est un long parcours, tu disais 25 ans. Ça a bien commencé bien avant pour moi, tu parlais du ministère de la Défense, à l’époque, au siècle dernier, on parlait du ministère de la Défense et surtout je suis vraiment le produit de l’informatique pour tous [4], 1984, et je suis très vite tombé dans l’open source, pratiquement dans les années 90. C’est ce qui a conduit, finalement, à la fois la construction personnelle de ce que je suis, mon parcours, des technologies auxquelles je m’intéresse et, bien sûr, à la création à la fois de Linagora dans les années 2000 et, plus récemment, ce projet OpenLLM qui porte l’ambition de créer des communs numériques dans le domaine de l’IA générative.

Daphnée Lucenet : OK. Peux-tu expliquer comment tu es tombé dans l’open source et ce qui t’a forgé cette conviction profonde que l’open source c’est l’innovation responsable ?

Michel-Marie Maudet : J’ai commencé l’informatique à une époque où les codes sources et ainsi de suite s’échangeaient sur des livres et des magazines qu’on achetait. Il fallait taper des lignes de code source, indéfiniment, le samedi après-midi, pour faire tourner des programmes. Je suis né de cette génération où le code était libre, il était partagé by design. Assez vite, mon père qui était dans l’enseignement et qui était aussi un doer, un maker, a essayé de bricoler des choses par lui-même et de les partager à la communauté pédagogique à laquelle il était associé, vraiment au tout début, je devais avoir une dizaine d’années.

Daphnée Lucenet : De père en fils !

Michel-Marie Maudet : C’est exactement ça ! J’ai vraiment subi une influence et, dès que j’ai eu l’occasion de découvrir bien sûr à la fois laFree Software Foundation avec Richard Stallman [5] et, bien entendu, le premier noyau Linux qui est sorti grâce à Linus Torvalds [6] dans les années 90/91, globalement j’ai testé et je n’en suis jamais ressorti. C’est pour cela qu’au sein du ministère des Armées j’ai aussi travaillé dans les grandes migrations de systèmes propriétaires vers des systèmes ouverts, c’était entre 1995 et 2000, et ensuite, à la fin de mon premier contrat au sein du ministère des Armées, j’ai décidé, avec Alexandre Zapolski, qui est le président de la société, de créer l’éditeur de logiciels qui est devenu aujourd’hui Linagora. Nous avons récemment fêté les 25 ans, tu le rappelais. On a retrouvé le premier business plan de Linagora et les premières slides en format numérique, à date de février 2001.

Daphnée Lucenet : Tu nous les partages ?

Michel-Marie Maudet : Je pourrais les partager et je crois que je l’avais fait dans un post il y a quelques années. Dedans on trouve le mot « indépendance » vis-à-vis des éditeurs et opérateurs télécoms, puisque, à l’époque, ceux qui verrouillaient un peu le marché c’étaient les opérateurs télécoms, rappelons-nous, donc on parlait d’indépendance et aussi, bien sûr, de logiciel libre pour essayer de rétablir une certaine forme de relation équilibrée entre les fournisseurs et les consommateurs. On voit bien aujourd’hui, avec l’IA générative, je pense qu’on va en reparler dans le détail, qu’on est sur des relations complètement déséquilibrées avec ces fameux verrouillages ou contrats de dépendance, comme je les appelle, comme on a actuellement, desquels on doit absolument sortir à moins d’être à jamais colonisés puis d’être simplement une colonie numérique des GAFAM.

Daphnée Lucenet : Exactement. Donc, par rapport à ce parcours open source, tu as fait la migration vers l’IA. Comment cette transition naturelle, quelque part, s’est-elle opérée, parce que maintenant l’IA ruisselle dans tout le numérique ? D’où cela vient-il ?

Michel-Marie Maudet : Pareil, je pense que c’est vraiment une influence de mes plus jeunes années, puisque je suis plutôt de la génération 2001, l’Odyssée de l’espace, Wargames et Terminator. Dans ces films de science-fiction de l’époque, on voyait des hommes qui, avec la voix, interagissaient avec des systèmes numériques, avec des robots, des entités. L’utilisation de la voix pour piloter des systèmes numériques a toujours été quelque chose qui m’a passionné, et on va y venir puisque c’est comme cela que Linagora a commencé à s’intéresser à l’IA et à l’IA générative dès 2016, ça date de pratiquement dix ans. Et puis aussi, un peu comme tout le monde, puisque, finalement il y a eu cette mise en lumière de l’IA générative en novembre 2022 quand OpenAI sort ChatGPT au grand public, mais avant ça, dans beaucoup de projets et dans beaucoup de labos, il y avait de l’IA, de l’IA générale, de l’IA symbolique, et nous aussi, à Linagora, nous en faisions, mais avec un focus peut-être moins fort qu’aujourd’hui.
Concrètement, l’accélération s’est faite en 2016, je m’en souviens. Je suis au CES, au Consumer Electronics Show à Las Vegas, en janvier, on voit ce qui ne s’appelait pas Alexa l’époque, on voit une toute petite carte numérique. Des ingénieurs d’Amazon étaient là et présentaient ce qui allait devenir Alexa avec des interactions à la voix et je me suis dit « waouh ! Ça y est, ils ont réussi à caser sur un tout petit dispositif, transportable, le fait de faire de l’interprétation de la voix », sauf que ça ne marchait qu’en anglais, bien entendu, et c’était, bien sûr, porté par un des GAFAM. Dans l’avion entre Las Vegas et Paris, vraiment, ce n’est pas du tout du storytelling, j’étais compétent subjugué et, à l’atterrissage, on a constitué ce qui est devenu LinTo [7], notre assistant personnel qui se déploie aujourd’hui par exemple à la Commission européenne, au Parlement européen. C’est une brique open source de transcription de la voix en texte, qui marche parfaitement en français et, aujourd’hui, dans d’autres langues, bien sûr en anglais et dans d’autres langues européennes. Et puis, quand ChatGPT arrive en 2022, avec Alexandre, dès le tout début 2023, nous prenons la décision : il faut qu’on apporte une solution et une réponse open source dans le domaine de l’IA générative et de ces fameux Large Language Models, les fameux LLM, et c’est comme cela qu’à l’été 2023 on lance la communauté OpenLLM et toute l’histoire de LUCIE.

Daphnée Lucenet : OK. On va revenir à l’histoire de LUCIE et de OpenLLM. Avant, j’aimerais faire un petit focus sur l’importance de la souveraineté numérique. Tu es convaincu, depuis des années, et c’est un message qui commence à passer, on va dire de plus en plus, réellement ces derniers mois du fait du contexte géopolitique. On se dit, finalement, que les dépendances c’est peut-être un risque. On a aussi le rapport d’avril 2025 du cabinet Asterès sur demande du Cigref [8] qui met en avant que 265 milliards, soit 80 % du total des dépenses en logiciels et clouds professionnels, en plus ce n’est que l’usage professionnel, est passé auprès d’entreprises américaines. On a eu aussi le rapport de Mario Draghi [9], en novembre 2024, sur le retard de compétitivité de l’Europe où, plus précisément, il pointe un déficit d’innovation en UE. Il nous rapporte que 70 % des modèles d’IA fondamentaux sont développés aux USA depuis 2017 et aussi que, depuis 2021, les entreprises européennes ont investi 270 milliards de moins que les US en recherche et innovation. Ce qui est marrant, c’est le même ordre de grandeur : 270 milliards, finalement, ce sont les 265 milliards qu’on donne aux États-Unis, que nous pourrions rapatrier en Europe pour rattraper notre retard. Cette coïncidence des montants est marrante, pourtant elle est, à priori, fortuite.
En quoi la souveraineté numérique est-elle aujourd’hui un enjeu majeur plus qu’hier, d’autant plus sur la question de l’IA ?

Michel-Marie Maudet : Il y a plusieurs choses.
Je pense qu’il y a une prise de conscience à tous les niveaux, pas uniquement au niveau des techniciens, dans les conseils d’administration, au niveau des politiques, au niveau des décideurs, que les technologies ne sont plus neutres. Si on regarde les évolutions technologiques, l’électricité, le chemin de fer, tout cela, ce sont des révolutions qui ont bénéficié de façon universelle aux populations du monde. Ça a commencé avec le cloud mais c’est vraiment exacerbé avec l’IA générative, on s’aperçoit aujourd’hui que ce sont des moyens à la fois de contrôle, de soft power, qui sont contrôlés par un tout petit nombre d’acteurs qui ont un réseau de distribution effectivement mondial. Je pense qu’il y a déjà une prise de conscience qui est de dire « hou, là, en fait nous sommes en train de confier notre destin numérique, notre futur numérique, à des entités commerciales, privées, très peu nombreuses, très rassemblées et, soyons honnêtes, qui n’œuvrent pas pour le bien commun, on va y revenir. Je pense qu’il y a cet aspect-là. Premier aspect.
Deuxième aspect : est-ce que cette dépendance aux acteurs et aux Big Tech est soutenable économiquement dans le temps ? Au moment où on se parle, il va y avoir une nouvelle loi de finances, on doit faire à peu près 40 milliards d’économies uniquement sur les finances publiques. Tu citais l’étude faite par Asterès, donc 265 milliards pour l’Europe et, si on regarde pour le territoire national, ce sont 65 milliards. Est-ce qu’un État comme la France peut encore se permettre, en 2025, puisqu’on doit faire des économies, de continuer à donner gratuitement 65 milliards à des éditeurs hors de la plaque continentale européenne, de continuer à donner de l’argent gratuit, puisque ce sont des systèmes de licences, il n’y a plus réellement d’innovation, ce sont des économies de rente. La réponse est non d’un point de vue économique et bien sûr aussi d’un point de vue du responsable politique. Je pense que ça vient renforcer le premier indice.
Ensuite dernier aspect sur les technologies. Je ne vais pas revenir sur la longue litanie des rendez-vous manqués ou des innovations, pourtant issues de l’Europe, mais qui ont été industrialisées et dont bénéficient aujourd’hui, d’un point de vue économique, les grands acteurs américains, ce n’est pas l’objet de notre discussion. En tout cas, je pense qu’il y a aussi une prise de conscience de dire que la dépendance technologique que nous avons aujourd’hui vis-à-vis de ces acteurs, si on se concentre vraiment sur les aspects technologiques, nous verrouille dans nos propres capacités à innover. Tu parlais de mon passé au ministère des Armées, aujourd’hui le ministère des Armées se réarme, mais il se réarme aussi d’un point de vue du numérique, parce que, aujourd’hui, de toute façon, il n’y a plus d’armée et il n’y a plus de société sans numérique. Donc globalement, la volonté de se réapproprier la technologie, de la maîtriser, est essentielle non pas pour aujourd’hui, mais pour développer effectivement les systèmes de défense ou d’armement de demain ou, si on revient dans quelque chose de plus civil, de plus pacifique, notre société et notre projet civilisationnel. On ne peut pas imaginer une civilisation ou une communauté d’intérêt française sans avoir une réflexion sur un numérique français au bénéfice de notre communauté française.
Je pense qu’il y a ces trois aspects.

Daphnée Lucenet : Français ou européen, il y a aussi les deux niveaux.

Michel-Marie Maudet : Oui, c’est essentiel et on le verra dans le domaine de l’IA générative. Aujourd’hui, bien sûr, la zone d’action, en tout cas les zones d’investissement doivent être au niveau européen. On fait face, comme tu le disais, à des déficits d’investissement qui sont tellement importants aujourd’hui que, bien sûr, on n’a pas le loisir de se faire la compétition entre les différents États membres en Europe, on doit plutôt être dans une phase d’action commune, d’action collective, on y reviendra. C’est pour cela que je défends cette notion de communs numériques dans le domaine de l’IA générative, parce qu’il faut qu’on ait un socle commun européen qui va permettre aux États membres, après, de développer leurs spécificités et éventuellement de faire émerger des écosystèmes technologiques locaux, puisqu’ils vont en avoir besoin. Je pense que cela c’est vraiment au cœur d’un projet européen, civilisationnel, sociétal. C’est pour cela qu’on se bat sur le plan technologique mais aussi, il me semble, sur quelque chose qui nous dépasse en tant que technologues, qui est plutôt un sujet sociétal.

Daphnée Lucenet : C’est intéressant. Je pense qu’on aura l’occasion d’y revenir quand on parlera des challenges. Finalement, le lien entre le numérique et l’existentiel, la société, ce sont toutes les questions qu’on est en train de se poser quand on est confronté à l’intelligence artificielle. C’est la parfaite transition vers cette notion de l’open source et des communs numériques.
La stratégie affichée aujourd’hui, du moins enclenchée au niveau de l’Europe, c’est de dire qu’on va capitaliser sur l’open source et les communs numériques, comme cela on va accélérer l’innovation.
Déjà, est-ce que tu peux nous éclairer un petit peu sur la différence que tu fais entre open source et communs numériques et, dans un second temps, détailler un peu plus en quoi c’est la stratégie potentiellement gagnante pour l’Europe, par rapport aux spécificités qu’on a en Europe ?

Michel-Marie Maudet : Open source, communs numériques. Souvent on a plutôt tendance à les associer, à dire que c’est à peu près la même chose ou que l’un est inclus dans l’autre et ainsi de suite.
Moi, je fais vraiment une différence. On voit que l’open source, le logiciel libre que j’ai connu dans les années 90 et celui qu’on pratique dans les années 2020/2025 n’est plus le même. Aujourd’hui, les grands acteurs de l’open source sont Microsoft, IBM, Google, ce sont aussi les GAFAM, donc attention. Il y a ce qu’on appelle l’open innovation, donc l’open source en termes de levier d’innovation, mais les modèles économiques ou les tentatives de fabriquer des économies de rente, y compris sur des logiciels libres, c’est tout à fait notre quotidien.
Concernant les communs numériques, pour moi un commun ça reste effectivement un commun ouvert, sans restrictions d’usage, alors que globalement, dans les produits open source d’IBM et de Microsoft, on a des modèles open core, des modèles freemium. On a donc une version communautaire mais, globalement, les entreprises sont obligées de payer un droit de souscription et un droit d’usage, c’est pour cela que c’est bien différent de ce que j’appelle un commun. Un commun doit être libre d’accès et avoir une universalité beaucoup plus importante. Et puis il faut que la gouvernance, le pilotage de ces communs, soit aussi ouverte et pas détenue par quelques acteurs.
Concrètement, pour te donner un exemple, c’est pour cela qu’on a créé cette communauté OpenLLM France, qui est devenue OpenLLM Europe [10] où le cœur de l’innovation de l’IA générative qu’on développe au sein de la communauté n’appartient pas à Linagora, il appartient aux 11 acteurs du consortium, il y a le CEA [Commissariat à l’énergie atomique et aux énergies alternatives], l’École polytechnique, le Loria [Laboratoire lorrain de Recherche en Informatique et ses Applications] donc le labo de l’Inria, il y a des boîtes privées, opsci.ai., donc une gouvernance partagée et, en plus, une communauté d’intérêt qui permet de nous aiguiller dans les choix. C’est pour cela que je trouve que le titre IA Ethique Insider, IA responsable parce que, effectivement, je crois qu’on recherche avec OpenLLM et cette gouvernance autour d’un commun ou de communs, au pluriel, numériques, cette responsabilité. On va le voir très certainement : quand on entraîne un modèle, on fait face à de nombreuses questions éthiques qu’il est difficile de trancher par une seule personne. Au moment où on se parle, je pense que tu as vu l’annonce cette nuit de Grok 4, le modèle d’xAI d’Elon Musk. On voit bien que les premières critiques, les premières analyses, disent « finalement, c’est un modèle qui est très orienté politiquement. »
Pour répondre à la deuxième partie de ta question, « pourquoi les communs sont-ils certainement la bonne option pour l’Europe ? » parce que, globalement, l’Europe n’est pas une entité unique. Rappelons que nous sommes 27 États membres, dans ces 27 États membres, il y a 24 langues, il y a deux, voire trois alphabets. On est obligé de gérer une certaine forme de diversité. Tu ne peux pas être seul aux commandes et décider d’imposer parce que, du coup, mécaniquement, tu vas exclure ou ne pas avoir une approche responsable et fair vis-à-vis des autres États membres. La seule façon aujourd’hui, pour l’Europe, de créer de l’IA générative qui soit acceptée et acceptable pour l’ensemble des citoyens européens, et on n’a pas d’autre choix, c’est de créer des communs ouverts avec une gouvernance partagée, pas uniquement avec des franco-Français, mais avec une communauté qui dépasse largement notre territoire. C’est pour cela que tu disais tout à l’heure, et tu avais raison de le rappeler, que la zone d’action sur l’IA générative doit être européenne, tout simplement, parce que, d’un point de vue gouvernance, il faut que ça soit fait avec les autres États membres.

Daphnée Lucenet : OK. C’est intéressant, c’est plus le sujet de la gouvernance. Comment gère-t-on ces communs ? C’est souvent la critique qui est faite même sur l’open source, c’est d’ailleurs ce qui fait parfois peur à des investisseurs : en gros on ouvre tout et tout le monde se sert, les Américains aussi peuvent se servir, les Chinois aussi. Comment gère-t-on, avec les communs numériques, le niveau de contribution de chacun, la propriété intellectuelle et tout cela ?

Michel-Marie Maudet : Il y a beaucoup de choses à dire.
Déjà, il y a des modèles qui sont différents entre les fondations américaines. Par exemple les grands communs, les grands logiciels libres ou les logiciels open source – lapsus révélateur, je devrais plutôt parler de logiciels open source – au sein de la Linux Foundation, par exemple au sein de la CNCF, la Cloud Native Computing Foundation, la gouvernance est généralement pilotée par le nombre de dollars que tu as dans le membership. Bien entendu, ce n’est pas ce qu’on fait. Les fondations ou les mécanismes qu’on met en œuvre aujourd’hui sont vraiment basés sur la méritocratie, ce qu’étaient, à l’origine, les fondamentaux des logiciels libres au sens de la Free Software Foundation, c’est-à-dire que tu apportes du code, tu apportes de la documentation ; tu n’as pas besoin d’être codeur, tu peux apporter une aide effective à un projet et tu vas, comme cela, à la méritocratie, avoir de plus en plus de droits à voter ou de droits à décider de la suite des opérations.
Comment cela se concrétise-t-il dans notre cas ? Il faut rappeler qu’il y a la communauté. Je pense qu’aujourd’hui OpenLLM France doit être une des plus grandes communautés francophones dédiée au sujet de l’IA générative, puisque, sur notre Discord, nous sommes à peu près 1200 personnes. Comme dans toute communauté, tu le sais très bien, il y a la règle des 90/9/1, donc 90 % de curieux, 9 % d’actifs et puis 1 % de personnes qui constituent le cœur, le noyau dur, mais 1 % ça fait quand même 120 personnes aujourd’hui qui travaillent au quotidien. Je pense que c’est beaucoup mieux et c’est beaucoup plus grand que les équipes d’ingeniering ou de ceux qui choisissent soit OpenAI soit les équipes d’ingeniering au plus proche d’Elon Musk.
On a donc déjà cette ouverture qui est opérée et après on a des comités. Aujourd’hui, il n’y a pas de membership puisque la communauté OpenLLM n’a pas de fonctionnement ou de structuration légale. Globalement, les gens manifestent leur intérêt, c’est ouvert à tout le monde, tous les auditeurs peuvent rejoindre le serveur Discord, il n’y a aucune barrière à l’entrée, il n’y a pas de membership, tout le monde est invité. Ensuite, bien sûr, en fonction de l’intérêt des contributions, si on identifie quelqu’un qui peut vraiment apporter de la valeur ou qui a des bonnes idées, on va le faire entrer sur nos réseaux, sur nos boucles plus opérationnelles où on va piloter les structurations du modèle, les plateformes d’inférence et ainsi de suite, c’est comme cela que cela fonctionne. Avec les 11 acteurs qui font partie du consortium, qui est un peu financé par l’État dans le cadre de France 2030, acteurs à la fois recherche académique et acteurs privés, on a un meeting tous les mois, une sorte de steering committee, un comité de pilotage, avec un ordre du jour très précis, qui prend les différentes grandes étapes de notre projet. On a des responsables de lots qui sont distribués entre les différentes entités. On a, par exemple, un lot « éthique/licence » qui est piloté par l’Université Sorbonne Paris 1, donc des gens spécialisés qui nous apportent leur expertise. On est sur des gouvernances et des mécanismes plus ouverts. Par contre, est-ce que ça va plus vite ou plus lentement ? C’est sûr que, dans ces mécanismes-là, l’alignement des points de vue est un peu plus long. C’est sûr qu’on n’est pas dans une stratégie comme celle de Mistral [11] où Mistral délivre une feuille de route très opérationnelle, c’est pour cela qu’on les voit très peu dans les événements communautaires ou impliqués dans des produits ou dans des projets comme OpenLLM, parce qu’ils ont besoin d’aller très vite, avec des équipes assez restreintes, mais le problème c’est que, finalement, ils dépendent d’un acteur. Pour nous, ça prend un peu plus de temps, mais, encore une fois, on estime que si on se place sur le fait que ces modèles ont un impact sociétal et civilisationnel, qui je suis, qui est Linagora pour décider seul de l’orientation des données d’entraînement et des mécanismes qui doivent être mis en place dans LUCIE.

Daphnée Lucenet : Si je résume c’est vraiment prendre le temps de bien faire les choses.

Michel-Marie Maudet : Bien faire les choses, c’est l’objectif. Aujourd’hui, on prend surtout le temps d’être en accord avec nos réglementations, AI Act [12], RGPD [Règlement général sur la protection des données à caractère personnel], et ça prend déjà du temps, c’est pour cela que les autres ne publient pas leurs datasets d’entraînement parce qu’il y aurait beaucoup à dire et ils seraient obligés de se contraindre à un certain nombre d’exigences auxquelles nous nous astreignons aujourd’hui et qui sont très longues. Nous nous astreignons aussi à rester alignés avec nos valeurs et quand on veut faire de l’universalité, quand on veut faire des systèmes ouverts, il faut déjà en discuter avec une base la plus large possible.

Daphnée Lucenet : OK. Intéressant. Tu mentionnais Mistral. L’association de Mistral avec la notion de souveraineté européenne est un sujet qui me fait souvent tiquer, sachant qu’on n’a pas, justement, cette transparence sur la gouvernance de Mistral, que les investisseurs sont Américains, qu’ils vont probablement devoir relever de l’argent à l’étranger. Comment vois-tu tout ça ? Comment tu perçois ?

Michel-Marie Maudet : Déjà, première chose, le projet Mistral, l’entité Mistral est extrêmement importante. On avait besoin d’avoir un drapeau, d’avoir un représentant, d’avoir un champion, puisque c’est comme cela qu’on le présente aujourd’hui, un champion européen, donc, aujourd’hui, on a un champion européen. Est-ce que ça en fait un champion de la souveraineté pour demain ? Très peu de personnes peuvent le dire, ça va dépendre à la fois de la stratégie de l’entreprise…

Daphnée Lucenet : Qui appartient aux investisseurs, au board qu’ils ont mis en place, sur lequel on a zéro information finalement.

Michel-Marie Maudet : Voilà, effectivement. Récemment, j’ai pu avoir des échanges, ils n’iront pas en bourse, donc tant qu’il n’y aura pas d’IPO [Initial Public Offering], il n’y aura pas de transparence sur les organes de gouvernance, le board et ainsi de suite. On connaît effectivement les annonces des levées et on a vu, en début de semaine, qu’ils sont repartis sur une levée d’à peu près un milliard. Suivant d’où viennent ces fonds, on pourra s’interroger, on pourra regarder si ça reste effectivement un champion européen, ou non, et à eux de dire en quoi, dans leur stratégie, ils vont être un opérateur de la souveraineté dans la durée pour l’Europe. Je ne peux pas me prononcer par rapport à ça. Je me dis qu’on a vu tellement d’autres exemples dans le passé, que je prévois un peu le plan B.
Avec LUCIE, avec OpenLLM, c’est que dans le cas où l’aventure Mistral n’était pas, à terme, une solution viable ou qui apporterait toutes les garanties de sécurité, de protection à l’immunité sur les lois extraterritoriales et ainsi de suite, il faut qu’on ait un plan B. C’est vrai que nous passons un peu en dessous des radars sous les effets d’annonce, puisque, aujourd’hui, il y a effectivement une grosse mise en avant de Mistral et c’est très bien, encore une fois je ne suis pas là pour critiquer, je pense que c’est bien. Attention ! On a vu d’autres très belles pépites, nées en France, avec un très beau destin européen, et qui sont passées sous giron des Big Tech, qui ont complètement disparu et qui ont provoqué pas mal de désillusions. Il ne faut pas être méfiant mais vigilant. De toute façon, je pense qu’on va avoir des réponses dans les prochaines semaines, puisque s’ils n’arrivent pas à lever des fonds européens, on risque d’avoir une très forte bascule de l’actionnariat outre-Atlantique. Ça ne veut pas dire qu’ils ne garderont pas une orientation, un projet. Ils s’expriment quand même très peu là-dessus, il y a très peu de prises de position sur ce sujet de la souveraineté. Si on remarque bien, ils parlent beaucoup d’open source, mais, encore une fois, ce n’est pas parce que tu es open source que tu es souverain. Open source piloté par un très petit nombre d’acteurs et sur lequel tu obliges, pour bénéficier des meilleures performances de tes modèles, à être sur une plateforme d’inférence qui est managée par une entité privée, tu n’es plus dans ce que je considère être un commun numérique et quelque chose qui soit au service de la souveraineté.

Michel-Marie Maudet : Je suis un peu moins optimiste. Pour la série B, ils ont déjà dû aller chercher de l’argent outre-Atlantique. L’actionnariat, à priori, n’avait pas encore basculé, mais la gouvernance déjà potentiellement. On a effectivement ce vrai sujet et on a aussi le sujet de l’open source. Vous êtes dans l’open source hard core, on va dire, je pense qu’on peut peut-être développer un peu plus ce sujet-là. On va notamment parler de LUCIE, en quoi est-ce véritablement de l’open source versus l’open source à l’américaine où Meta, la communauté open source considère que les limitations sur les licences ça ne fait pas vraiment de l’open source et puis, avec l’IA, il y a différents degrés d’ouverture – open data, open weight, open source. Est-ce que tu peux un peu poser les bases là-dessus et nous dire comment vous faites les choses pour LUCIE et nous parler concrètement de LUCIE, l’alternative ?

Michel-Marie Maudet : C’est vachement bien qu’on aborde ce point-là, pour moi il est essentiel, c’est vraiment au cœur de notre démarche. Aujourd’hui, tu le sais bien, quand tu utilises le mot open source, tu te drapes d’une certaine forme, parfois on l’associe à un commun numérique, on l’associe à souveraineté, il faut donc apporter ces éléments de clarification.
Première chose, si on revient à ce qu’on veut faire, on veut un modèle qui soit ouvert et universel. Universalité, qu’est-ce que ça veut dire ? Pour moi, ça veut dire qu’y a pas de restrictions à l’utilisation, que ça soit sur des lieux géographiques ou des limitations par rapport à la puissance de calcul que tu mets pour opérer ces modèles. En cela, le dernier modèle de Meta, Llama 4, n’est pas utilisable par les citoyens ou des entités basées en Europe puisque les datasets ne respectent pas l’AI Act et le RGPD. Ce n’est pas nous qui le disons, c’est carrément dans les conditions d’usage du modèle, c’est Meta qui publie : quand on va sur le site pour télécharger Llama 4, si on est citoyen européen ou si on est une entité dont le siège social est en Europe, on n’a pas le droit de l’utiliser. Ces restrictions ne nous conviennent pas. Ce que nous appelons réellement modèle open source, c’est un modèle qui ne va pas avoir de restrictions d’usage ni d’un point de vue géographique ni sur la puissance de calcul. Premier élément.
Deuxième élément. Ce sont des modèles où il y a 100 % de transparence. Finalement, ces modèles de langage ne sont qu’une représentation des données d’entraînement ; si on ne connaît pas la donnée d’entraînement, on ne connaît pas le modèle et on n’en maîtrise pas le fonctionnement. Pour nous, c’est important quand on dit qu’on veut être souverain. Là aussi, on peut définir ce qu’on appelle souverain. J’aime à rappeler, quand on parle de souveraineté, d’ailleurs je préfère parler d’autonomie, c’est qu’on ait la capacité à reconstruire, de bout en bout, la technologie et qu’on en soit complètement maître. Et aujourd’hui, y compris avec Mistral, nous n’avons pas accès aux données d’entraînement qui sont utilisées pour entraîner les modèles de Mistral. C’est aussi un point de différence. Nous disons que pour qu’un modèle se revendique réellement open source, tout simplement open source, il faudrait, à l’image de ce qu’est un logiciel libre où le code source est publié pour pouvoir le reprendre, le modifier, le recompiler et être complètement autonome, qu’on applique la même chose, ce qu’on s’applique à faire. Nous ne sommes pas les seuls. Je remarque qu’il y a deux ans on nous disait que ce n’était pas possible et je vois, par exemple, que Hugging Face, une très belle pépite française mais qui, aujourd’hui, est partie, c’est une boîte américaine, soyons tout à fait clairs, a publié récemment la version 3 de SmolLM et, ce matin même, ils ont publié la totalité des données d’entraînement. On voit bien que d’autres acteurs sont en train de faire ce qui il n’était pas possible, nous disait-on, il y a deux ans. Je pense qu’à terme on aura raison.
Pour synthétiser, un modèle réellement open source c’est un modèle sans restrictions d’usage, transparent sur les méthodes d’entraînement et la méthodologie de construction avec, bien sûr, la transparence sur les données d’entraînement. Si on réunit ces trois caractéristiques, il n’y a plus beaucoup de modèles. Il y a effectivement LUCIE, il y a BLOOM [13], qui était une initiative européenne. En 2021, avant même ChatGPT, il y avait BLOOM, ce modèle universitaire, académique, dont on se revendique un petit peu comme les petits-fils ou les cousins, parce qu’on reprend cette philosophie-là. Il y a quand même de plus en plus d’acteurs, je parlais de Hugging Face, autrement il y a la fondation de Paul Allen, un des fondateurs de Microsoft, avec le modèle OLMo [14] qui, pareil, adoptent de plus en plus une transparence sur la totalité des données d’entraînement et sur les licences d’utilisation. On pense que ça sera le modèle à la fin. Rappelons d’ailleurs, je sais pas si vous avez vu passer, on enregistre au mois de juillet, qu’en avril 2025, Sam Altman, le CEO d’OpenAI, a évoqué l’idée de faire une publication d’un modèle open weight, pas complètement open source, open weight, c’est-à-dire un modèle qu’on peut télécharger, utiliser un peu comme on le souhaite, c’est là où on trouve les modèles comme Mistral, donc y compris OpenAI rouvre le game. On le sait très bien : au tout début d’OpenAI, il s’agissait de faire des modèles open source avec publication : les datasets des premières versions, ChatGPT 2, sont publics, on peut les consulter, mais après, avec ChatGPT 3, il n’y a plus eu la publication des datasets. On voit bien que, y compris les grands acteurs, sont en train de se poser la question de savoir s’il n’est pas nécessaire, quand même, d’avoir une notion d’ouverture.
Pour le coup, pour terminer rapidement sur ce sujet-là, DeepSeek et le modèle Qwen, donc les modèles d’origine asiatique, ne publient pas leurs datasets, par contre ils ont vraiment beaucoup publié sur les méthodes d’entraînement, en particulier sur les éléments de raisonnement, c’est un peu la vague actuelle sur ces modèles de raisonnement, et là, pour le coup, je pense qu’ils ont fait un petit peu changer la donne. Rappelons que quand DeepSeek sort au mois de janvier 2025, il est au-dessus de tous les modèles de raisonnement, y compris ceux de Claude et des modèles commerciaux comme ChatGPT.

Michel-Marie Maudet : C’était une belle démonstration et c’était plutôt l’approche open science.
Je pense que cette notion d’open source washing est vraiment en train de s’opérer avec cette guerre entre Meta, OpenAI, qui changent un peu de stratégie, il y en a un qui se prétend hyper ouvert. Il y a beaucoup de washing. C’est comme Sam Altman, au départ, qui essayait de nous faire croire qu’OpenAi est un projet pour l’humanité, le bien commun, non-profit, etc. Des gens ont acheté, d’autres n’ont pas acheté. On voit qu’il y a quand même beaucoup de washing derrière.
Avec le projet LUCIE, OpenLLM, on est sur de la transparence pure, c’est limite un idéal pour une Europe ouverte, qui s’entraide, qui est dans la transparence et c’est hyper intéressant. C’est une approche que je trouve vachement intègre, quelque part, parce qu’entre ce qu’on dit et ce qu’on fait, aujourd’hui, avec les réseaux, etc., finalement ce qu’on dit prend le dessus sur ce qu’on fait, c’est un petit peu le piège. Avec OpenLLM et LUCIE, quand on regarde ce que vous faites concrètement, on voit que la démarche, l’intentionnalité, est véritable, je trouve ça vraiment admirable.
On a ce projet, LUCIE, on ne va pas revenir sur toute l’histoire, c’est une aventure incroyable que tu as déjà détaillée dans d’autres podcasts.
Vous sortez LUCIE en début d’année, ce n’est pas un lancement commercial, c’était plutôt un projet expérimental, qui n’avait peut-être pas été annoncé comme tel, mais, quelque part, c’était assez incroyable de dire « regardez ce qu’on fait. On a un projet vraiment commun, ouvert, d’innovation, voilà où on en est. » C’est arrivé aux plus grands, c’est arrivé aussi à Microsoft avec son IA qui a eu exactement les mêmes problèmes : vous vous sortez LUCIE, quiproquo sur les intentions, énorme backlash dans la presse et sur les réseaux sociaux. Petit aparté, je trouve dingue qu’on ait laissé ce sujet dériver comme cela, subir un tel backlash, au lieu de dire « regardez, l’IA c’est hyper complexe, on ne s’en rend pas compte ». Là, tu as l’impression que c’est facile parce que tu écris dans une fenêtre de chatbot, on te répond, tu as l’impression que c’est facile, en fait vous avez fait un travail colossal. Les algorithmes, sur les plateformes qu’on connaît, préfèrent favoriser les nouvelles négatives, plutôt que dire « on a une initiative avec très peu de moyens » – on rappelle que les GAFAM, etc., ont des moyens vraiment colossaux, GPT 4 a coûté plus de 100 millions de dollars seulement pour son entraînement, Google prévoit 50 milliards d’investissements sur la partie infra à venir. Vous arrivez avec, quelque part, ce projet hyper humaniste, peu de moyens vous dites « regardez ce qu’on fait, c’est sympa ». Plutôt que de se dire « génial, il se passe des choses en France, en plus on veut faire les choses bien », gros backlash. Rapidement, comment as-tu vécu cela et est-ce qu’il y a quelque chose que tu aurais fait différemment ?

Michel-Marie Maudet : Il faut juste rappeler un élément du calendrier. La même semaine, le lundi, Stargate [Projet américain à 500 milliards de dollars, NdT] est annoncé aux États-Unis, le jeudi DeepSeek [Agent conversationnel de la société chinoise, NdT] est annoncé et nous arrivons le vendredi. Suite à un tweet qu’on ne maîtrise pas, il y a effectivement une mise en avant de notre petit projet qu’on voulait ouvrir un peu dans la logique open source, dans l’open source on dit release as often as possible ; l’idée c’est surtout de releaser au plus tôt pour pouvoir avoir du feedback utilisateur.
Tu disais qu’on vise un idéal, je pense effectivement qu’on vise un idéal et, pour le coup, je l’assume parfaitement à titre personnel : quand on vise un idéal, il faut être un peu candide et naïf. C’est vrai que j’ai voulu appliquer ce que je connaissais depuis les années 90 sur l’open source en disant « le truc n’est pas parfait, on va le publier et puis on va voir ce que ça donne, on va prendre du feedback et on va enrichir. » D’ailleurs, c’était prévu et présenté comme cela. Quand on se connectait à lucie.chat, la plateforme, on avait un disclaimer qui disait « vous êtes sur un projet expérimental » et on te demandait un accord pour que les données avec lesquelles tu allais interagir dans le modèle puissent être utilisées pour continuer l’entraînement de LUCIE. Il n’y avait donc pas de mise en standing sur notre intention. La seule erreur, c’est qu’on l’a présenté comme un outil de chat conversationnel qui ressemblait comme deux gouttes d’eau à ChatGPT. Globalement, dans la même semaine, on annonce 500 milliards d’investissement sur Stargate, DeepSeek fait vaciller Nvidia, et l’initiative franco-européenne LUCIE. Un idiot bête arrive à lui faire dire qu’on fait une omelette avec des œufs de vache, vraiment le truc classique, et des trucs un peu moins sympas comme de la génération de discours haineux, nous sommes obligés de prendre la décision d’arrêter le service public de mise à disposition du modèle, mais le modèle a continué à évoluer et, encore aujourd’hui, il continue à évoluer, il est downloadé, il est utilisé par des clients, il est aussi utilisé par notre communauté.
Pour répondre concrètement à ta question, l’erreur c’était certainement naïf de dire qu’on va sortir quelque chose qui ressemble à un agent conversationnel, donc les gens ont dit « c’est le ChatGPT à la française » et, pour le coup, on n’était pas dans le bon timing, en plus à 15 jours de l’IA Open Source Summit, nous nous sommes un peu grillé les ailes. Après nous sommes quand même aussi les spécialistes du french bashing, il y a donc eu ça. Mais quand même, si tu remarques bien, il y a eu deux temps : la tourmente a duré à peu près une semaine, pour le coup ça a été dur, on l’a vécue, ça m’a mis en avant dans les médias, ce que je ne connaissais pas, faire les plateaux, La Matinale de TF1, aller chez France Télévisions, je ne connaissais pas ce côté-là du métier, ce n’est pas le truc que je préfère, mais il a fallu faire un peu le service après-vente. Malgré tout très vite, dans un deuxième temps, la communauté des sachants – Yann Fergusson [Sociologue du travail et directeur scientifique du LaborIA, NdT], quelqu’un qui connaît –, tous ces gens-là ont écrit en disant « les gars, c’est tout à fait logique » et on a eu un fort soutien. On a mis la page qu’on arrêtait, mais on avait quand même laissé un formulaire pour que les gens qui ont manifesté un intérêt positif par rapport au modèle puissent s’inscrire et à date, puisqu’on n’a toujours pas rouvert le service, plus de 6000 personnes, quand même, se sont enregistrées sur ce formulaire. Pour terminer, je rappelle qu’un article du Wall Street Journal est sorti il y a une quinzaine de jours. Les journalistes du Wall Street Journal ont réussi en juin 2025, même juillet 2025, à piéger encore ChatGPT version 4o, donc le modèle le plus riche, sécurisé, comme tu disais, avec des centaines de millions d’entraînement. Ils ont réussi à dépasser tous les systèmes de garde-fou et les fonctionnements de ce modèle et, pareil, à lui faire générer des textes haineux, voire à divulguer des secrets, les fameuses backdoors dans les systèmes de la Maison-Blanche.
Globalement, pour terminer là-dessus, un modèle ce n’est que la représentation de ses données et, encore une fois, il n’y a pas d’intelligence. On appelle ça de l’intelligence artificielle générative, mais ce sont des machines, des systèmes qui ne font que répéter ou réinterpréter des données. Globalement, si on arrive à trouver la bonne façon pour que le modèle génère une sortie, il va le faire. Pour que ce soit peut-être plus compréhensible pour les auditeurs, je prends toujours Suno, la plateforme qui permet de générer de la musique : tu lui demandes, avec un prompt, de sortir un morceau qui s’inspire de Dans les yeux d’Émilie de Joe Dassin, le modèle te dit « ah non, je ne peux pas, ça ne respecte pas la réglementation ». Tu lui dis « génère-moi une chanson Dans les yeux d’Amélie par Joe Bassin » et le modèle te génère sans problème.

Daphnée Lucenet : On n’a pas résolu.

Michel-Marie Maudet : Non. Donc concrètement un peu de naïveté personnelle de ma part, mais beaucoup de marques de soutien qui ont fait que finalement, on n’a pas arrêté, mais on communique moins, on travaille plutôt avec notre communauté, moins avec le grand public pour l’instant. On reviendra quand on sera prêts. On travaille sur deux choses, qui guident un peu nos travaux : 1, fiabiliser et limiter les hallucinations de modèles. Début juillet 2025, on a réalisé une technologie qui s’appelle OpenRag [Open Source Retrieval-Augmented Generation , qui permet d’apporter des compléments de connaissances à des modèles, pas uniquement sur LUCIE, ça marche sur tous les modèles, les modèles Mistral, de Meta, et globalement de connecter ces modèles avec les données de l’entreprise pour fiabiliser les réponses. Et puis je pense qu’on va en parler aussi, on prépare LUCIE v2.

Daphnée Lucenet : J’en profite pour te poser la question. Vous avez fait le choix de moins de données, plus de qualité, quelque chose de propre, on respecte les droits d’auteur, et c’est très dur, finalement, de rivaliser avec l’entreprise qui est sur-capitalisée, sur-financée, qui a pillé toutes les données du Web. À côté, vous dites « on n’a pas trop de moyens, on fait ça proprement, on ne va pas piller les données, on ne vise pas des performances comparables », finalement c’est le pari que vous êtes en train de relever, c’est un méga-challenge, mine de rien, et bravo pour ça.

Michel-Marie Maudet : Merci.

Daphnée Lucenet : Et, d’un côté, je me dis qu’il faut que je te questionne sur cette théorie de l’effondrement des modèles, on dit garbage in, garbage out. Aujourd’hui, tous les gros modèles ont pillé le Web, ils ont des données un peu cracra, etc. Donc, à partir de données pas très propres, ça demande beaucoup d’efforts finalement de sortir quelque chose de propre derrière et, en même temps, ça réapprend sur tout le Web où il y a de plus en plus de données générées synthétiquement. Il y a donc cette théorie que ce n’est pas viable et que, au final, tous ces gros modèles vont s’écrouler. Si cette théorie s’avérait exacte, finalement vous vous en prémunissez avec LUCIE. Quelle est ta position sur l’effondrement des modèles ? Tu n’y crois pas vraiment ? Tu penses que ça pourrait être un avantage à terme ? Quelle est ta vision ?

Michel-Marie Maudet : Théoriquement, plus on a de données, plus le modèle est performant. Le problème c’est que le volume de données générées par des vrais humains est actuellement dépassé par des données générées par des modèles plus ou moins bien intentionnés ou plus ou moins bien travaillés, plus tous les mécanismes qui sont utilisés par les puissances étrangères ou d’autres entités pour générer des fake news. Globalement, c’est moins le sujet des données d’apprentissage que la qualité des données qui nous entourent, qu’on pratique aujourd’hui sur Internet qui, mécaniquement est en train de diminuer, puisqu’il y a de plus en plus de contenus générés, en volume, par rapport à ce qui a été réellement créé par des humains.
Donc oui, plus on a de données, plus on fait de meilleurs modèles, sauf que, vu que la donnée produite aujourd’hui est de moins en moins bonne qualité, on peut avoir, et on les aura, des modèles qui arrivent à une forme d’asymptote sur les performances, tout simplement parce qu’ils seront feedés, alimentés avec des choses qui sont de moindre qualité. Ça c’est sûr. C’est pour cela que Meta abandonne progressivement les architectures de modèles actuels qu’on appelle transformers et teste d’autres approches. Beaucoup de choses tournent autour du Web sémantique ou des données structurées. Beaucoup de travaux, aujourd’hui, explorent des entraînements de nouveaux modèles basés sur de la donnée structurée et pas sur des milliards voire trillions de tokens. Je pense que là aussi on a certainement eu un coup d’avance en essayant de plutôt travailler sur ce que j’appelle des SML, des Small Language Models et le « L » est important, Language. Je devrais plutôt dire des Small Linguistic Models, puisque ce qu’on cherche à faire ce sont des modèles de langues, c’est-à-dire des modèles qui ont une pratique et qui ont un traitement équitable des langues, donc, si on se concentre sur le territoire européen, sur les 24 langues que j’ai citées et qu’on a aujourd’hui sur le territoire européen et qui ne sont pas, par contre, des modèles de connaissance. Mécaniquement, aujourd’hui la connaissance qu’on construit est de moindre qualité pour tout un tas de raisons, celles qu’on évoquait tout à l’heure. Je pense que là aussi on a certainement fait un pari qui, aujourd’hui, ne démontre pas une performance comparable à celle des modèles actuels, mais qui, très certainement à terme, sera la bonne réponse. En tout cas, et je reprends ma casquette de directeur général de Linagora, on fait du B to B, on vend aux entreprises. Quand tu vends aux entreprises, un modèle qui a toutes les connaissances du monde n’intéresse pas une entreprise. Ce qu’elle va vouloir, c’est un modèle qui connaisse les données de l’entreprise, ses mails, les contacts, les documents qui sont dans sa digital workplace. C’est là où ce qu’on construit actuellement est certainement une approche plus vertueuse et plus prometteuse à terme.
Malheureusement, avec le Shadow AI, on n’a pas le temps d’en parler mais c’est ce que fait beaucoup de monde : personne n’a le droit d’utiliser ChatGPT à titre professionnel, mais tout le monde le fait dans les faits, ce qui fait qu’aujourd’hui on doit avoir des dizaines, voire des centaines de documents qui, toutes les minutes, partent chez OpenAI, c’est catastrophique et ce n’est pas maîtrisé.
Nous allons apporter une solution avec effectivement de la sécurité sur l’utilisation faite des données d’entreprise dans un contexte maîtrisé. C’est effectivement ce pari de la qualité.
Il y a deux ans, quand on a lancé ça, on nous a dit : « Qui êtes-vous ? Comment allez-vous définir ce qu’est une donnée blanche, une donnée de qualité ? ». J’avais toujours une réponse simple parce que j’étais obligé d’aller assez vite : « Déjà une donnée qui respecte notre cadre réglementaire ». Je pense que c’est important. On n’est pas au Japon, on n’est pas aux États-Unis, on n’a pas une cour, ici en Europe, comme ce que vient de faire la cour en Californie qui dit « les données publiques deviennent des données d’entraînement au nom du fair use », on n’a pas cette notion-là en Europe. Donc concrètement, si tu veux respecter le droit d’auteur qui est fondamental ici en Europe, si tu veux respecter le RGPD, si tu veux être responsable par rapport aux données personnelles des gens, mécaniquement tu diminues drastiquement le nombre de données que tu peux utiliser pour entraîner, mais est-ce que ça nous disqualifie et est-ce qu’on fabrique des modèles qui sont tellement peu performants par rapport aux grands modèles ? La réponse est non. On n’est qu’à la première version de LUCIE, c’est très prometteur, les orientations qu’on a prises et l’ambition qu’on porte c’est la bonne à terme. J’ai l’impression que ça vient nous conforter et, du coup, nous sommes passés outre le petit épisode du mois de janvier et on travaille, on bosse.

Daphnée Lucenet : Et puis, finalement, on peut actionner plein de leviers pour sortir de ce paradigme toujours très américain, bigger is better. C’est aussi très français à savoir que ce n’est pas la quantité qui fait la qualité.

Michel-Marie Maudet : C’est Socrate. On revient effectivement à des choses de bon sens.
Bigger is better, je comprends très bien d’un point de vue économique : plus tu fais gros, plus tu es obligé de te connecter aux plateformes très grosses, donc celles des Big Tech. Le choix de faire des modèles petits, frugaux, plutôt bien taillés, c’est aussi pour choisir là où on va pouvoir les héberger. Bien sûr les héberger sur le territoire européen, mais, si on se projette, on voit bien que la prochaine vague des modèles va être embarquée dans nos lunettes ou dans des dispositifs portatifs. Il faut absolument que les modèles puissent être opérés aussi sur ces devices parce que, pour certaines données personnelles, il faudra que les traitements se fassent localement.
Donc, là aussi, je pense qu’on a plutôt un coup d’avance. Sauf que, aujourd’hui c’est pas ce qui est mis en avant à la fois par les technologies ou les modèles dits state of the art et ce que veut le marché, puisque le marché a besoin d’annoncer qu’il fait des milliards, voire des centaines de milliards d’investissement. Donc, pour justifier des centaines de milliards d’investissement, il ne faut pas que tu dises que tu entraînes un modèle comme LUCIE. Pour l’entraînement d’un modèle LUCIE, même si on prend des échelles assez grandes, on est largement en dessous de dix millions d’euros. Même si j’intègre les coûts de constitution du dataset, l’ingéniering nécessaire plus le compute donc les ressources computationnelles pour entraîner, on est largement en dessous de dix millions.

Daphnée Lucenet : Pour des performances ?

Michel-Marie Maudet : On n’est pas 100 fois moins bon que ces modèles-là, il y a des effets d’échelle, à mon avis, qui sont très prometteurs pour la suite.

Daphnée Lucenet : Donc LUCIE v2 et prochain crack de NVidia en bourse !

Michel-Marie Maudet : Pas tout à fait parce que LUCIE v2 sera encore basée sur l’architecture transformer. Le démarrage de l’entraînement, c’est la première fois que j’en parle publiquement, va débuter le 1er septembre. On a aussi un soutien indéfectible, je tiens à le souligner, de la recherche académique, puisque LUCIE v1 comme LUCIE v2, est entraînée sur cette fameuse machine, dont on entend souvent parler, Jean Zay. Cette année, on va avoir ce qu’on appelle une allocation stratégique de la machine, c’est-à-dire que pendant un moment plus resserré, mais quand même a minima un mois voire un mois et demi, on va avoir la totalité de la machine accessible pour l’entraînement de LUCIE ce qui nous donne un volant à peu près de plus d’un million d’heures en GPU, c’est énorme ! Par contre, pour l’entraînement, l’architecture transformer est encore très connectée aux environnements Nvidia et les gens de Nvidia sont des gens très bien d’un point de vue technologique, on ne peut pas faire sans eux pour l’entraînement. Nous suivons avec beaucoup d’intérêt les projets européens pour fabriquer des puces, des microprocesseurs ou des processeurs graphiques pour l’inférence, c’est-à-dire au moment de l’utilisation, et sincèrement, dès qu’on aura des plateformes qui nous permettent de tester nos modèles sur autre chose que du Nvidia, on le fera avec très grand plaisir puisque, encore une fois, on vise aussi l’indépendance au niveau des fournisseurs d’infrastructures et là, pour le coup, Nvidia a effectivement aujourd’hui une place qui questionne, voire inquiète.

Daphnée Lucenet : OK. J’aimerais qu’on parle des trois grands challenges que vous êtes en train de relever et qui sont inhérents à la mission que vous êtes en train de mener :
le challenge de la gouvernance, on en a parlé. Comment fait-on pour avoir une véritable gouvernance du commun numérique qu’est LUCIE ?
les challenges techniques, on en a parlé, les challenges de la performance, de la donnée et je pense que c’est quelque chose qui mérite d’être un peu plus souvent partagé et vulgarisé, que les gens comprennent vraiment ce qui se passe derrière, la réelle performance de sortir un modèle, un SLM, avec des moyens réduits et les perspectives que ça nous offre ;
et finalement le challenge du business modèle, on n’en a pas beaucoup parlé, ce sujet du financement et du modèle open source derrière. Finalement, avec Linagora, tu as fait des choix très forts, économiques aussi, par conviction. Beaucoup de questions se posent sur ces modèles véritablement open source. Est-ce que tu peux dire quelques mots sur les défis ? Tu as parlé des agents, de l’OpenRag, un petit peu la réponse à tout ça.

Michel-Marie Maudet : Sur la gouvernance, comme je l’ai dit, aujourd’hui c’est une communauté qui n’a pas d’existence légale, juridique. Le chemin, devant nous, c’est soit d’apporter LUCIE à une fondation existante qui serait basée en Europe, soit de créer une fondation pour lui donner cette coloration encore plus ouverte et à l’échelle européenne. Nous sommes déjà en discussion avec certaines fondations ou autres initiatives européennes, EuroStack et autres, qui pourraient porter ces initiatives et sincèrement ça ne nous pose pas difficulté à apporter nos assets et les travaux que nous avons réalisés jusqu’à présent puisqu’ils sont déjà constitués comme un commun. Finalement, il s’agit simplement d’ouvrir encore plus la démarche et de la partager avec les autres États membres. Ça c’est sur la partie gouvernance.
Sur la partie technologique, l’objectif clairement affiché de LUCIE v2, c’est d’avoir un modèle réellement open source suivant la définition qu’on a indiquée tout à l’heure, qui soit au niveau de performance des derniers modèles qui ont été produits par les Chinois, qui sont aujourd’hui, pour moi, les plus performants, à savoir Deepseek et Qwen 2.5 et 3. Ça veut dire que c’est arriver avec des modèles qui ont la capacité de faire du « raisonnement », entre guillemets, pas raisonnement humain mais dans la terminologie des modèles qui, aujourd’hui, ont une capacité tout simplement à pouvoir faire des cheminements assez complexes, des chaînes de pensée avec la capacité à revenir quand ils constatent qu’ils se sont fourvoyés et ainsi de suite, c’est vraiment l’objectif de LUCIE v2. Je pense qu’on aura des benchmarks, je pense qu’on aura fini d’entraîner à la fin d’année. Donc, début 2026, une release de LUCIE v2 avec des performances qui soient au plus près d’un DeepSeek, donc du coup d’un o3 d’OpenAI, puisque, aujourd’hui, les performances de DeepSeek c’est à peu près le modèle de raisonnement d’OpenAI, ça veut dire que c’est quand même une sacrée avancée. Il faut rappeler que c’est uniquement notre deuxième modèle et que, finalement, tout cela n’a commencé qu’en 2024, donc moins de deux ans. C’est aussi l’intérêt de faire de l’open innovation et de bénéficier des travaux de la communauté open source.
Donc ça sur les deux premiers challenges.
Et le troisième, dont on a effectivement peu parlé, c’est le modèle économique. Pour le coup, là aussi nous avons une position assez tranchée : pour moi, le modèle fondation, c’est-à-dire LUCIE en tant que tel, le modèle linguistique, il faut que ce soit un commun. Est-ce qu’il y a un modèle économique avec un droit d’usage payant à ce modèle ? La réponse est clairement non. Après, si des gens n’ont pas la possibilité de l’installer chez eux mais qu’ils veulent que ce soit une plateforme qui soit montée par Linagora ou un autre acteur – Scaleway, OVH, Clevercloud – et que, quand tu consommes ce service-là, tu payes quelque chose, ça nous va bien. C’est tout à fait dans la logique, le mode SaaS [Software as a Service ou le mode hébergé n’est pas du tout exclusif de la notion de commun numérique, c’est simplement soit j’ai la compétence et les infrastructures pour le faire par moi-même, soit je délègue cette partie service à un opérateur.
Donc pas de modèle à souscription ou pas de module, pas de montant ou d’argent, en tout cas pas de revenus générés sur le modèle en tant que tel. Ce que nous allons faire et ce que nous faisons dès à présent, je parlais d’OpenRag, tout à l’heure, OpenRag c’est vraiment brancher le système d’information du client au modèle, bien sûr LUCIE v2, mais ça peut être n’importe quel autre modèle que tu voudrais utiliser. Là, pour le coup, il y a de la personnalisation, il y a de l’analyse de données, comment aujourd’hui, parmi tous les référentiels multiples qu’on trouve dans les entreprises qui sont dans des documents bureautiques, de la vidéo, plein de choses, comment tu traites ça d’un point de vue connaissances apportées au modèle, là il y a plein d’accompagnement et de produits à développer et ensuite, comme pour tout le monde, il y a la révolution des agents. Je pense qu’on a un petit moment de désillusion, je suis tout à fait transparent avec toi. En fait, on a cru que les agents allaient remplacer, que ça allait révolutionner notre travail. Aujourd’hui, on s’aperçoit que le niveau de maturité des technologies agents ça remplace les tâches où il y a vraiment très peu de valeur ajoutée, mais ce ne sont pas celles où tu perds beaucoup de temps. Je ne suis pas sûr que l’année 2025 soit l’année des agents et de l’agentic AI. Par contre, est-ce que c’est une technologie qui est prometteuse ? Oui. Pourquoi ? Parce que aujourd’hui, en termes de prospective, on parle de l’IA générale, celle qui va remplacer les hommes, est-ce que c’est dans deux ans, est-ce que c’est dans six mois, est-ce que c’est dans dix ans ? Ce qui est sûr c’est que l’AGI, donc cette IA générale, ne sera pas concentrée sur les acteurs comme OpenAI, elle va être distribuée. Peut-être qu’OpenAI aura un rôle à jouer, mais, forcément, il devra coopérer avec d’autres systèmes et ces autres systèmes passeront effectivement par des agents qui seront d’ailleurs tous open source.
Quand on voit ce qu’on appelle le Model Context Protocol, le MCP, ou l’Agent2Agent qui a été réalisé par Google, ce sont des spécifications 100 % open source qui me font penser aux fondations de ce qu’on pourrait imaginer demain comme une IA générale, c’est-à-dire une IA qui sera capable, à terme, de faire des choses plus rapidement et de façon plus efficace qu’un être humain. C’est une réalité, il faut s’y préparer, ce n’est pas de la science-fiction. Par contre, est-ce que c’est le modèle Terminator où tout est centré sur un système unique ? Non. C’est pour cela qu’il y a beaucoup de boîtes aujourd’hui, beaucoup d’entreprises, et c’est aussi le modèle économique que va développer Linagora, autour des agents. Avec les agents tu peux avoir une approche à la fois de services ou des produits parce que tu peux effectivement avoir des agents suffisamment génériques pour générer, par exemple, les appels entrants, pour générer des idées, des résumés de réunions et ainsi de suite. Aujourd’hui, tu passes par des systèmes, tu le fais une fois, deux fois et puis, au bout de la troisième fois, tu dis « finalement, vu le temps que je passe à corriger, à améliorer je n’ai pas réellement gagné ». Donc là, pour le coup, il y a beaucoup d’innovation et quand on parle des centaines de milliards potentiels de chiffre d’affaires à générer sur l’IA, ils seront sur les agents. C’est pour cela que, aujourd’hui, OpenAI, si on regarde bien, ne gagne toujours pas d’argent, uniquement sur une interface conversationnelle telle qu’on la pratique aujourd’hui. Il n’y a pas de modèle économique sur le modèle fondation, il faut tout simplement l’accepter. C’est aussi pour cela que le modèle de Mistral, en tout cas de mon point de vue, n’est pas fragile, mais on peut s’interroger. Ils vont bien sûr travailler aussi sur les technologies agent, normal puisque l’ère des modèles va être dépassée assez rapidement. Je pense que dans deux ans on parlera d’autre chose et certainement plutôt des logiques agents au service de constructions de processus métiers et de refonte, finalement, de l’organisation de nos sociétés à l’ère de l’IA générale.

Daphnée Lucenet : Intéressant. Complètement en ligne avec toi. Je rappelle que’OpenAI c’est dix milliards de chiffre d’affaires et cinq milliards de pertes donc, ce n’est effectivement pas viable. Cette perspective sur l’IA générale est hyper intéressante, vous serez là, sur le pied de guerre, on vous attend.
Merci beaucoup pour cet échange très riche, je pense qu’on aurait encore pu creuser des sujets pendant des heures. En tout cas merci pour ton temps.
Lucie est vraiment un beau projet, on attend la v2 vraiment avec impatience. Ce qui ressortait beaucoup quand on a préparé l’épisode, c’est ce sujet : faire de l’IA, c’est quoi ? C’est vraiment se poser des questions existentielles sur la place de l’homme, le pourquoi, ce qui est juste ou pas. Ça laisse des questions et ça rend aussi positif, pour le futur, de voir qu’il y a des projets comme cela qui sont en train d’émerger.
Merci beaucoup.
Merci d’avoir écouté cet épisode. Si ça vous a plu, n’hésitez pas à vous abonner, à mettre des commentaires, des évaluations positives et surtout à partager l’épisode.
Je vous dis à bientôt pour un prochain épisode et, d’ici-là, restons curieux, engagés et critiques.