La bibliothèque d’Alexandrie du logiciel

Delphine Sabattier : Avec moi en plateau ce matin, Alain Goudey, directeur général adjoint en charge du numérique et professeur de marketing à la Neoma Business School. Bonjour.

Alain Goudey : Bonjour.

Delphine Sabattier : Vous êtes, avec Guillaume Leboucher, fondateur et président de la Fondation L’IA pour l’école. Bonjour Guillaume.

Guillaume Leboucher : Bonjour Delphime.

Delphine Sabattier : Et, tous les deux, vous allez nous aider à comprendre un peu ce qui se passe avec l’arrivée de ChatGPT, de Bard demain. Cette intelligence artificielle qui débarque à l’école, qu’est-ce que ça bouscule, quelles questions ça pose et surtout comment on s’organise face à ça ? Ce sera donc notre grand Tech Talk aujourd’hui dans Smart Tech.

D’abord, je propose que l’on se connecte avec Roberto Di Cosmo [1], qui porte un projet extraordinaire : le projet de créer la bibliothèque d’Alexandrie du logiciel, c’est comme ça que je le présente assez simplement. C’est un projet qui est né en France sous l’impulsion d’Inria [Institut national de recherche en informatique et en automatique] et en partenariat avec l’UNESCO, c’est un projet qui a une envergure internationale. Bonjour, Roberto.

Roberto Di Cosmo : Bonjour Delphine.

Delphine Sabattier : Vous êtes professeur d’informatique de l’université Paris Cité détaché d’Inria depuis que ce projet a émergé, grâce à vous notamment, en 2015. C’est une initiative internationale, à but non lucratif, dont vous êtes le directeur aujourd’hui.
Il y a quelques jours s’est tenue une grande réunion pour fêter les six ans, sept ans ? Je n’ai pas très bien suivi quelle était la date exacte anniversaire, j’ai vu plusieurs informations non concordantes à ce sujet, Roberto Di Cosmo. La vraie question, c’est : que fêtiez-vous exactement ? Où en est le projet ? Quelle est votre principale réussite ?

Roberto Di Cosmo : Merci. On va essayer de remettre un peu d’ordre dans la chronologie, il n’y a pas de problème. Le projet est né un peu autour de 2014/2015. On a dévoilé Software Heritage [2] au grand public le 30 juin 2016. En 2021, on avait fêté les cinq ans, à l’UNESCO, mais c’était en période de Covid, de confinement, c’était assez compliqué. On a donc décidé, cette année, de transformer l’événement qu’on avait créé pour fêter les cinq ans en une conférence annuelle, qui se répétera tous les ans.
Cette année on a eu la chance, en particulier, de pouvoir faire venir le directeur adjoint de l’UNESCO, monsieur Toufik Jelassi, la directrice de la DINUM [Direction interministérielle du numérique], madame Stéphanie Schaer. Un représentant de la NASA, Steve Crawford, était là, le président de l’association EOSC, European Open Science Cloud, Karel Luyben, et d’autres, pour un grand événement le matin. On a essayé de faire le point sur tous les sujets dans lesquels avoir une grande infrastructure internationale, cette grande bibliothèque d’Alexandrie d’un côté, mais qui est aussi un très grand télescope pour observer l’évolution, la galaxie du développement logiciel. C’est important pour le patrimoine culturel, pour la recherche, pour l’industrie et pour l’administration publique. On a essayé de regarder tout ça, ensemble, une très grande communauté qui est en train de se monter autour des collaborateurs, d’ambassadeurs du projet et de collaborateurs de tout type.

Delphine Sabattier : Et là, aujourd’hui, plus de 14 milliards de fichiers uniques archivés, déjà. Mais ça représente quoi, proportionnellement à la masse existante actuellement ?

Roberto Di Cosmo : Il y a quelques années, je vous aurais dit peut-être qu’on a récupéré un quart de ce qui existe ; là, on s’approche pas mal de la totalité : les plus grandes plateformes sont presque entièrement archivées, GitHub qui est la plus populaire, Gitlab, je pense que les auditeurs de votre émission connaissent toutes ces plateformes. On les a toutes archivées et on commence à aller chercher la longue traîne des petits projets, des petites plateformes qui sont éparpillées un peu partout sur Internet, et ça progresse vraiment pas mal. C’est difficile de dire ce qu’on a par rapport à ce qu’on ne sait pas, mais disons que si on dit 80/90 % du total qui est disponible sur la planète, je pense qu’on n’est pas très loin de la vérité.

Delphine Sabattier : Donc, aujourd’hui, c’est la plus grande archive mondiale de codes sources de logiciels qui a été créée. Vous avez commencé à nous donner quelques pistes sur l’utilisation. À qui ça sert ? À quoi ça sert déjà aujourd’hui ?

Roberto Di Cosmo : Quand on parle de bibliothèque d’Alexandrie, peut-être que les gens se disent : « Ah oui !, mais la bibliothèque d’Alexandrie a brûlé ! ». Ne vous inquiétez pas, on a pris des mesures pour que ça ne brûle pas ; c’est une version moderne, on a fait des copies. Mais, en plus, parfois on a l’idée de quelque chose comme de vieilles archives poussiéreuses où on met des choses qu’on va regarder peut-être dans 50 ans. Non ! Là c’est vraiment complètement différent.
C’est une infrastructure dans laquelle, bien sûr, on archive, donc on protège, on préserve tous les codes sources depuis les débuts de l’informatique, des usages de l’informatique. Mais on a aussi ce qui a été développé hier soir par un développeur et on a la trace de qui a modifié quoi, quand, à quel moment et pourquoi, donc tout l’historique du développement d’un code source. Et on est capable aussi de voir si le même bout de code, le même logiciel, est utilisé à plusieurs endroits. Dans le développement moderne, il arrive très souvent qu’on fasse des copies d’un logiciel pour faire des modifications qu’on soumet aux autres, ce qu’on appelle les pull requests aujourd’hui.

Finalement, ce ne sont pas seulement les 14 milliards de fichiers uniques qui viennent des 200 millions de projets différents, c’est aussi un gigantesque graphe qui retrace tous les développements de tous les codes, qui contient aujourd’hui plus de 25 milliards de nœuds et 350 milliards d’arêtes. C’est probablement le plus gros graphe social publiquement disponible aujourd’hui. Il y a d’autres graphes, le Web, etc., mais, disons, publiquement disponible, pas possédé par une multinationale, je pense que ce que nous avons construit est le plus grand. Il y a évidemment des applications pour la cybersécurité, des applications pour la recherche, pour construire l’infrastructure pour la science ouverte — les chercheurs déposent les codes sources qui seront utilisés pour prouver les résultats dans leurs articles —, pour l’administration publique qui a besoin de transparence, de mettre à disposition des codes, et aussi pour reconstruire l’histoire des logiciels marquants de l’informatique.

Delphine Sabattier : Vous avez évoqué très rapidement la question de la sécurité de l’archive. Quelles sont les technologies d’archivage que vous utilisez ? J’ai vu, lors de votre événement, Qu’il y avait tout un thème autour du stockage sur ADN.

Roberto Di Cosmo : Absolument. La nouveauté de cette année c’est qu’on a décidé de mettre une session, passez-moi le terme, un peu plus geek, un peu plus technique dans ces événements qui sont normalement de nature un peu plus politique. Donc là, on s’intéresse effectivement à faire en sorte qu’on puisse préserver le code aujourd’hui, c’est-à-dire en faire plusieurs copies de façon à ce qu’on puisse l’analyser plus facilement ; s’il y a un accident technique, si on se fait pirater — ça peut arriver à tout le monde, on ne prétend pas être meilleurs que les autres —, qu’il existe des copies ailleurs. Il y avait un haut responsable de l’ENEA [Agence nationale italienne pour les nouvelles technologies, l’énergie et le développement durable], une sorte de CEA [Commissariat à l’énergie atomique et aux énergies alternatives] italien, qui va construire le premier miroir mondial d’un des centres de superordinateurs qui est localisé à Bologne, c’est le 4e ordinateur mondial, en partie italien, en partie européen.

Mais, on s’est aussi intéressé à comment on pourrait préserver ces types de connaissances sur le très long terme, avec des coûts très faibles. On a donc eu l’intervention de Marc Antonini qui est le porteur d’un projet spectaculaire ici en France qui s’appelle MoleculArXiv [3] qui vise à utiliser des brins d’ADN ou alors des polymères, si vous voulez, pour stocker de l’information sur le très, très long terme. L’ADN a la particularité de pouvoir durer très longtemps et ça ne coûte rien, il suffit que le matériau soit un peu à l’abri de l’humidité : on est encore capable de séquencer aujourd’hui l’ADN des mammouths qui ont existé il y a des centaines de milliers d’années ; les brins d’ADN sont toujours là, on peut le faire. Donc, si on arrive à encoder les logiciels importants — il faudra décider lesquels — dans ce type de technologie, on serait capable de les préserver pour 10 000 ans sans aucun problème.

Mais bon !, ça c’est du très long terme. D’un autre côté, on a le court terme, c’est-à-dire avoir des copies sur des superordinateurs qui permettent de faire des analyses massives, de trouver effectivement des vulnérabilités, de pouvoir suivre... Vous parlez aujourd’hui d’intelligence artificielle, on ne vous cache pas qu’on est contacté par pas mal de gens qui veulent faire l’équivalent d’un ChatGPT, mais en utilisant Software Heritage comme base, plutôt que, allez savoir !, ce qui a été utilisé pour entraîner les réseaux neuronaux dans ces autres plateformes qui sont fermées. Il y a tous ces types d’applications.

La troisième est une autre technologie portée par un collègue italien, qui est l’un des meilleurs chercheurs dans le domaine, qui est de compresser les archives de sorte que tous les développeurs de la planète puissent avoir sur leur propre machine, sans avoir à passer par un serveur intégré par je ne sais qui, l’ensemble du code développé dans leur propre langage de programmation, avec un moteur de recherche qui les aide à retrouver facilement ce dont ils ont besoin.

Vous voyez qu’il y a un foisonnement de technologies diverses. Parmi les plus fascinantes, celle de l’ADN, évidemment, nous a fait un peu tous rêver, mais c’est plutôt à l’horizon cinq à dix ans.

Delphine Sabattier : Oui. Et c’est vrai que se posera la question de quels logiciels méritent d’être archivés sur un brin d’ADN.
Le logiciel prend une place majeure dans notre société numérique. Là, il ne s’agit pas uniquement d’aller créer une archive de logiciels libres, vous travaillez aussi avec des partenaires, des acteurs privés du monde numérique, Roberto Di Cosmo.

Roberto Di Cosmo : Oui, tout à fait. Il faut bien voir que moi je suis dans ce monde du logiciel libre depuis un peu plus d’un quart de siècle, ce qui ne me rajeunit pas, malheureusement. Disons qu’aujourd’hui toutes les entreprises, même les plus fermées, les plus propriétaires au monde, ont toutes un usage massif du logiciel libre, parce que c’est juste trop difficile de tout reconstruire tout seul, donc on se base sur le travail des autres. C’est là-dedans qu’on a concentré l’essentiel de notre énergie, c’est-à-dire archiver le plus rapidement possible tous les codes des logiciels qui sont publiquement disponibles, ce qui est un peu plus que les logiciels libres : publiquement disponible, ça peut être un logiciel pour lequel on dit, par exemple, « vous pouvez l’utiliser, mais seulement pour un usage de recherche. »

On a donc archivé tout ça, mais on veut aller plus loin, parce qu’effectivement on veut récupérer des logiciels historiques qui étaient fermés. On travaille avec les réseaux des musées de l’informatique au niveau international, il faut aller convaincre, une par une, les entreprises de céder les droits pour qu’on puisse les mettre à disposition de tous.
On réfléchit aussi à la possibilité de fournir un service aux entreprises, qu’elles aient une sorte de tiers de confiance dans lequel les codes sources propriétaires aujourd’hui, mais qui pourraient être d’un intérêt global dans le futur, puissent être stockés en sécurité. C’est ce qu’on appelle les escrows [4] dans la terminologie un peu technique d’aujourd’hui.
C’est aussi une piste qu’on suit, mais, pour l’instant, on se concentre sur la grande masse de tout ce qui est ouvert parce que ça grandit très vite. On a observé que la taille de notre propre archive double tous les deux ans. La quantité de nouveaux codes qui sont produits est assez spectaculaire !

Pour revenir à cette question de l’intelligence artificielle, on va vous dire qu’il n’y aura plus besoin de développeurs parce que les robots vont tout faire à notre place. J’ai un certain âge, vous le voyez à la couleur de ma barbe, ça doit être la cinquième ou sixième itération des buzzwords qui vous disent : c’est la fin de la programmation. Il y avait les langages de la cinquième génération, les Prolog, les IDE [Integrated Development Environmen], les modèles de drilling engineer, tout ça. À chaque fois on vous dit qu’on a besoin de moins de programmeurs puisque c’est fini, tout est automatisé, et, chaque fois, on a plus de développeurs à la fin, parce que ces nouvelles technologies, en réalité, nous permettent d’aller plus vite et de faire plus de choses, donc on fait moins des choses bêtes et plus de choses, entre guillemets, « intelligentes ». C’est comme quand on a pris des calculettes pour aller à l’école, ça ne nous a pas rendu forcément moins intelligents ; je pense que là aussi.

Delphine Sabattier : Roberto Di Cosmo, je pense que mes invités vont acquiescer. Vous avez une réaction ? Vous connaissiez déjà ce projet, Software Heritage ?

Guillaume Leboucher : J’ai un petit peu travaillé dessus, parce que je travaille aussi un petit peu avec Inria. L’idée, c’est vraiment de saluer cette initiative qui est extraordinaire. On parle souvent des Big Tech qui ont des moyens colossaux. Là, il y a beaucoup de moyens universitaires, il y a beaucoup de rassemblement de savoirs on peut dire de l’extrémité de la planète et c’est formidable. Je vois qu’il y a la loi de Moore sur les cartes mères, là on vient de citer la loi de Moore sur le logiciel qui double tous les deux ans. C’est fantastique et je crois qu’on ne peut être qu’émerveillé par ce type d’initiative.

Delphine Sabattier : Une réaction également ?

Alain Goudey : C’est vrai que c’est un très beau projet et on voit bien que l’ensemble des fondamentaux du monde d’aujourd’hui sont présents dans ce projet, on l’évoquait : doublement de la donnée ou du nombre de logiciels, enjeux de stockage de cette donnée, avec des explorations de technologies extrêmement intéressantes pour le futur.

Delphine Sabattier : Alain Goudey, Guillaume Leboucher, vous restez avec moi, on va enchaîner sur cette question de l’intelligence artificielle et ce que ça bouscule dans le domaine de l’éducation.
Roberto Di Cosmo, merci encore beaucoup, à la fois pour votre initiative, mais aussi pour venir nous en parler et nous permettre de suivre ce beau projet, Software Heritage [2], dont vous êtes le fondateur et le directeur.