Roberto Di Cosmo, voix off : Toutes les entreprises, toutes les administrations, toutes les recherches du monde dépendent des codes sources qui sont sur ces types de plateformes. Elles les réutilisent tout le temps, les téléchargent et les mettent à jour tout le temps. Si quelqu’un coupe l’accès ou supprime un de ces logiciels ça met en danger toute la chaîne logicielle.
Et là arrive Software Heritage [1] qui a une copie de toutes les versions de tous ces logiciels, peu importe d’où ils viennent. En réalité, nous avons déjà construit l’infrastructure technique pour la vraie autonomie numérique et la vraie souveraineté logicielle.
Delphine Sabattier : Bonjour. Bienvenue dans Politiques Numériques alias POL/N. Je suis Delphine Sabattier et aujourd’hui cette émission est tournée au siège social de l’organisation des Nations unies pour l’éducation, la science et la culture à l’occasion du Symposium Software Heritage [2]. C’est clairement l’opportunité pour nous de rencontrer des personnalités influentes en matière de politiques publiques. Nous allons plus particulièrement porter notre regard sur le logiciel, ce bien commun, l’open source, les créateurs, la création logicielle et puis tout cet écosystème qui tourne autour.
Épisode 1. Roberto Di Cosmo
Delphine Sabattier : Bonjour.
Roberto Di Cosmo : Bonjour Delphine.
Delphine Sabattier : Vous êtes docteur et professeur en informatique. Aujourd’hui, vous êtes surtout le directeur de Software Heritage qui nous invite ici, à l’Unesco. C’est une initiative portée par Inria et Unesco pour la préservation et le partage du patrimoine logiciel. Pour le dire vite, on dit que vous faites la bibliothèque d’Alexandrie du logiciel open source. En quoi consiste votre mission ? Comment, plus précisément, vous donnez-vous une mission au sein de Software Heritage ?
Roberto Di Cosmo : Cette mission est née il y a dix ans. On célèbre les dix ans de l’annonce publique de la création de Software Heritage.
Dès le départ, notre mission était très claire et simple, elle tient en trois mots, on souhaitait :
- aller chercher, collecter l’ensemble des codes sources publiquement disponibles sur la planète,
- les préserver, s’assurer qu’ils ne soient pas perdus
- et les rendre facilement disponibles pour améliorer l’usage, améliorer la qualité des développements logiciels dans le futur, pour toutes générations futures.
Delphine Sabattier : Et toutes ces étapes en même temps ? Ou on commence par la collecte ?
Roberto Di Cosmo : Ça a été effectivement un long travail pour arriver jusqu’ici.
Quand on a commencé, on a commencé par collecter tout cela. En 2015, on a déjà commencé par récolter des choses, en 2016 on a annoncé, mais on n’avait pas ouvert les portes. Pour faire une grande bibliothèque, on commence par construire les fonds documentaires, en les collectant, mais on n’avait pas encore construit la salle de visite, la salle de lecture, l’index, etc.
En 2018, toujours ici à l’Unesco, on a ouvert la salle de lecture, on a ouvert le portail pour qu’on puisse regarder ce qu’il y a à l’intérieur et plus tard, suite à beaucoup d’efforts, on arrive aujourd’hui à une situation dans laquelle on permet d’exploiter cette énorme base des connaissances, donc on fournit une infrastructure qui a changé un peu de rôle. Ce n’est plus juste l’archive ou juste la bibliothèque, mais ça dévie vers une infrastructure clé, essentielle pour notre société numérique d’aujourd’hui.
Delphine Sabattier : Pourquoi dites-vous cela ? Pourquoi dites-vous que ça a changé, qu’il y a eu une étape, d’un seul coup, qui fait que vous avez pensé l’infrastructure différemment ?
Roberto Di Cosmo : En réalité, avec les gens avec qui on a travaillé dès le départ, Stefano Zacchiroli [3] qui est le numéro 2 ici et toute l’équipe qui a travaillé avec nous, nous avons toujours pensé l’infrastructure comme cela. Mais entre l’idée et la réalisation, il y a beaucoup de chemin à faire. L’idée de fournir un service à toute la société était bien là, mais le temps qu’on construise la technologie pour pouvoir stocker de façon efficace, pour pouvoir interroger de façon efficace, ça a été des thèses de doctorats, ça a été des années de développement, ça a été des collaborations internationales, ça a été des projets de recherche qui ont duré longtemps. Aujourd’hui, enfin, on a réuni l’ensemble de ces connaissances mondiales, tous les codes de la planète, avec tout l’historique de leur développement, dans un seul et unique graphe qui contient aujourd’hui 50 milliards de nœuds, plus de 400 millions de projets, un trilliard d’arêtes, dans un graphe on a des liens, dans notre monde, on appelle ça des arêtes. Là-dedans est incorporée l’histoire du développement de tous les logiciels publiquement disponibles sur la planète.
Delphine Sabattier : Pourquoi dites-vous l’histoire ? Il n’y a pas l’historique ?
Roberto Di Cosmo : Si, il y a tout l’historique. On garde absolument tout l’historique, toutes les modifications, toutes les versions, toutes les choses qui ont été modifiées par quelqu’un et c’est essentiel pour le service qu’on fournit maintenant à l’ensemble de la société, par exemple la cybersécurité, la sécurité informatique. Si on trouve une faille dans un composant logiciel, on se pose naturellement la question de savoir si elle est encore présente dans un autre logiciel ou dans quelle version elle est présente, pour s’assurer qu’il ne soit pas vulnérable. Comme nous avons cet énorme instrument qui permet de regarder l’ensemble de la galaxie des logiciels avec toutes les versions, on peut regarder comment ça a évolué dans le temps, on peut identifier tous les endroits dans lesquels cette vulnérabilité est disponible, est encore utilisable par des attaquants.
Delphine Sabattier : Comme vous avez une vue globale, comme cela, sur cette production logicielle open source, si on prend l’idée du graphe, mais géographique : d’où viennent ces logiciels principalement ?
Roberto Di Cosmo : Là c’est l’autre chose qu’on arrive à faire aujourd’hui. L’analyse de ces graphes – ce sont des travaux qui ont été publiés par Stefano et d’autres gens de l’équipe, la première étude a été faite il y a deux ans – permet de regarder la distribution géographique des contributions. On se base sur l’adresse e-mail des gens, de quel pays elle vient, la date à laquelle ça a été déposé, l’horaire, si c’est trois heures du matin, on espère que les gens dorment.
Delphine Sabattier : Un développeur à trois heures, ça se fait !
Roberto Di Cosmo : Ça se fait, mais peut-être pas tous. Donc là, on arrive à voir, sur 50 ans, l’évolution de la répartition des contributions aux logiciels. Au début il y avait l’Europe, les États-Unis, maintenant ça a complètement changé, on voit que c’est vraiment partout sur la planète.
Delphine Sabattier : De manière égale ?
Roberto Di Cosmo : On a des données objectives. Disons un bon tiers qui n’est ni Europe ni États-Unis.
Delphine Sabattier : D’accord. C’est où ? C’est la Chine, l’Asie, la Russie ?
Roberto Di Cosmo : Plein de pays : l’Amérique latine, l’Afrique, la Chine, des contributeurs absolument sur toute la planète.
Delphine Sabattier : Quand vous pensez à cette mission que vous avez imaginée, parce que vous êtes le fondateur de Software Heritage, avez-vous pensé aux utilisateurs ? À qui vous adressez-vous en fait ? Pour qui faites-vous tout cela ?
Roberto Di Cosmo : Déjà le fait de choisir de sauver les codes sources des logiciels, qui est essentiellement la recette de fabrication, la description de ce qu’un ordinateur doit faire, pensé par être humain pour un autre humain, pour qu’il puisse les relire plus tard. C’était un choix très pertinent. On a choisi, comme utilisateurs, les personnes qui peuvent comprendre du code, il n’y en a donc pas beaucoup. Mais vous voyez combien le monde a changé. Aujourd’hui, avec l’intelligence artificielle qui arrive – il y a plein des débats –, mais maintenant, s’il y a une chose que les modèles d’intelligence artificielle savent très bien faire , c’est vous expliquer ce que fait un code source. Vous posez une question, même si vous ne connaissez rien en informatique, vous proposez un code à un modèle, vous lui demandez ce que fait exactement ce code et il peut vous l’expliquez très clairement, ce qui n’était pas les cas il y a deux ans.
On a pensé en avance – on n’imaginait pas l’arrivée de l’IA, il ne faut pas exagérer – pour que ça devienne vraiment lisible pour tout le monde et c’est lisible aussi pour les gens qui font des modèles d’IA. La grande nouveauté de cette année, si on peut vraiment focaliser sur cela, on en a parlé aujourd’hui, on s’intéresse à la cybersécurité, on s’intéresse effectivement aux modèles d’IA, on s’intéresse à créer des indicateurs pour que les entreprises puissent savoir de quels logiciels elles dépendent, à quels logiciels elles contribuent, quelles sont les capacités, les compétences de leurs développeurs, c’est super intéressant à regarder, mais il y a plus important encore. On s’est rendu compte que la plupart des logiciels publics mondiaux, pas que open source, il y a aussi des codes qui n’ont pas une licence open source, mais que tout le monde réutilise, sont en réalité développés, pour les trois quarts, sur une seule plateforme, GitHub par exemple aujourd’hui. À la limite, ce n’est pas très grave que tout le monde se retrouve sur GitHub.
Delphine Sabattier : Qui a été rachetée par Microsoft.
Roberto Di Cosmo : Mais, dans la situation géopolitique actuelle, c’est un énorme risque, on ne peut pas savoir ce qui va arriver. Toutes les entreprises, toutes les administrations, toutes les recherches du monde dépendent des codes sources qui sont sur ce type de plateforme, elles les réutilisent tout le temps, les téléchargent, les mettent à jour tout le temps. Si quelqu’un coupe l’accès ou supprime un de ces logiciels, ça met en danger toute la chaîne logicielle.
Et là arrive Software Heritage qui a une copie de toutes les versions, de tous ces logiciels, peu importe d’où ils viennent. Donc, en réalité, on a déjà construit l’infrastructure technique pour la vraie autonomie numérique, pour une vraie souveraineté logicielle dont on parle tellement.
Delphine Sabattier : Vous ne rencontrez pas de freins, aujourd’hui, pour recenser l’ensemble de ces logiciels, récupérer les versions antérieures et puis suivre les nouvelles versions, parce qu’un logiciel, ça bouge tout le temps ?
Roberto Di Cosmo : Il y a des freins qui sont évidents. Dans l’historique de nos récoltes, on a observé que la quantité de nouveaux logiciels double tous les deux ans. C’est une course exponentielle, tout le monde a appris ce qu’est une exponentielle pendant le Covid, c’est quelque chose qui grandit très vite. La taille de notre archive grandit très vite aussi, c’est donc un défi technique d’arriver à suivre, de continuer tout ça, et aussi rendre possible l’analyse de cette grande masse de codes. C’est aussi pour cela que, aujourd’hui, on se pose la question de la prochaine étape.
Durant les dix années précédentes nous avons construit, nous avons montré que nous en sommes capables, montré l’utilité énorme de tout ce que nous faisons fait, mais nous ne pouvons pas continuer avec juste quelques contributeurs financiers ou partenariats, etc., il faut passer à la prochaine étape : une infrastructure commune, globale, soutenue par un ensemble d’acteurs institutionnels, un ensemble d’acteurs d’État, d’industriels, etc., donc 10 fois plus, 40 fois que ce qu’on a maintenant, parce que nous sommes vraiment les seuls capables de fournir ce type de service de façon, si vous me permettez du faux français, vendor neutral je ne sais pas comment dire. Nous sommes vraiment neutres, nous ne sommes pas une entreprise, on va pas vous piéger avec des contrats ou des choses comme cela. D’ailleurs, nous ne sommes tellement pas en train de vous piéger qu’on essaye de multiplier les copies de l’archive dans différents pays. On vient tout juste d’annoncer la signature de l’accord pour un miroir avec un institut de recherche en Espagne, de la communauté de Madrid. C’est le quatrième miroir institutionnel en Europe.
Delphine Sabattier : Un miroir, c’est une copie complète.
Roberto Di Cosmo : Complète, d’absolument tout. S’il arrive quelque chose chez nous, une copie complète existe dans un miroir. On n’est absolument pas là pour piéger, on est là pour mutualiser les coûts entre tous les acteurs qui y auraient intérêt.
Une autre annonce importante a été faite aujourd’hui, ce matin : l’Unesco a décidé, et c’est aussi pour cela qu’on a eu l’incroyable chance de recevoir la bienvenue du directeur général de l’Unesco, en ouverture du symposium, monsieur El-Enany qui est le nouveau directeur général. En général, les personnalités de ce niveau bougent seulement quand il y a un chef d’État, je vous garantis que je ne le suis pas !
Delphine Sabattier : Demain peut-être !
Roberto Di Cosmo : Non ! Il est venu parce que l’Unesco a décidé d’engager ses capacités, et il y en a 100, je ne vais pas faire toute la liste, vous pourrez demander à quelqu’un de l’Unesco, elles sont vraiment essentielles ; il y a 53 bureaux de l’Unesco partout dans le monde, 190 pays qui font partie de tout ça, pour pousser la reconnaissance et l’importance du logiciel, du code source, dans tous les États, dans tous les pays, pour faire de la formation, pour amener les bonnes pratiques et évidement baser l’ensemble de tout cela sur l’infrastructure qu’on a développée ensemble. C’est donc quelque chose d’énorme.
Delphine Sabattier : L’Unesco renouvelle sa confiance, son partenariat et son soutien.
Roberto Di Cosmo : Et passe à une échelle supérieure.
Delphine Sabattier : Ça montre, Roberto Di Cosmo, qu’on a compris que le logiciel est un sujet très important, vous l’avez dit, en termes de cybersécurité, d’autonomie stratégique. Pour autant, je n’ai pas encore le sentiment pour l’instant, en Europe, en tout cas en France, qu’on prenne au sérieux les développeurs de logiciels, l’open source, c’est comme si ça restait un sujet à côté, que les développeurs de logiciels étaient encore des marginaux.
Roberto Di Cosmo : Heureusement, les choses ont pas mal changé. On a une difficulté dans le monde du logiciel, vous le voyez aussi tous les jours dans votre métier de journaliste : si je suis un astrophysicien, je vais illustrer ce que je fais, on a de merveilleuses photos du ciel à montrer, ça parle à tout le monde ; si je suis dans la radiobiologie, on a de très belles photos de cellules qu’on peut montrer à tout le monde ; si on veut doit montrer à tout le monde ce qu’on fait avec un logiciel, en général on met toujours en photo un écran avec un truc qu’on ne comprend pas, donc on a du mal à capter l’objet. C’est pour cela qu’on ne se fait pas une idée précise de ce que c’est, on a des difficultés à en comprendre l’importance.
Aujourd’hui on a fait deux petites choses pour essayer de changer un peu la donne.
Par exemple aujourd’hui, à l’ouverture, on a offert au directeur général de l’Unesco et au PDG de Inria, un objet physique, une sorte d’Arbre de la vie de Klimt qui soutient le logo de Software Heritage, l’idée étant de travailler ensemble pour construire cette infrastructure commune. Cet objet a été fabriqué avec une imprimante 3D, à partir d’un logiciel qui a été construit à l’Inria, et dont le code source a été sauvé dans l’archive.
C’était pour dire que le logiciel est un objet, première chose.
Deuxième chose, ce n’est pas juste un objet abstrait, aride, c’est fait par des personnes, ça a un impact sur la société. Si vous regardez dans les murs ici, à l’entrée de la salle de réunion, il y a une très belle exposition sur l’histoire du code source, que vous pourrez filmer si vous voulez, pour laquelle un comité a travaillé pendant un an pour choisir des codes sources impactants, représentatifs, pour expliquer pourquoi ils sont importants pour la société, pour le musée. Par exemple les codes sources d’ELIZA [4] qui était le premier psychologue informatique, que j’ai utilisé quand j’étais étudiant. C’était super, vous tapiez dans l’écran « je ne me sens pas bien ».
Delphine Sabattier : Un ancêtre de ChatGPT.
Roberto Di Cosmo : L’autre disait : « Dis-moi plus. – J’ai un problème avec ma mère.v– Ah, ta mère, parle-moi de ta mère. » Et on avait l’impression de parler avec une vraie personne alors que derrière c’étaient des centaines des lignes de code. Vous trouvez cela ici.
Delphine Sabattier : Mais cela, maintenant, c’est ChatGPT ou d’autres, en tout cas ce sont des chatbots qui tournent avec des IA génératives, qui sont capables de mimer le langage humain de manière spectaculaire. Comment voyez-vous arriver ces nouveaux outils, on va dire, ces nouveaux types d’outils numériques, parce qu’il n’y a pas que du logiciel dedans ? Qu’est-ce que ça crée comme réflexions au sein de Software Heritage ?
Roberto Di Cosmo : Je vais vous révéler un secret : la plupart des informaticiens de mon âge ont fait de l’informatique parce qu’ils rêvaient d’intelligence artificielle à une époque où c’était complètement hors de question de faire quoi que ce soit.
Delphine Sabattier : Pas d’IA générative, Roberto ?
Roberto Di Cosmo : Si, si. On rêvait de cela. Il y avait les livres d’Asimov [5], on rêvait du robot qui parle, qui répond aux personnes.
Delphine Sabattier : Mais on ne pensait pas encore aux transformers.
Roberto Di Cosmo : Bien sûr, cette technologie est arrivée beaucoup plus tard. Ce qu’on voit maintenant, c’est impressionnant. L’exemple d’ELIZA est intéressant. Il y avait vraiment des gens, dans le passé, qui utilisaient ELIZA, un logiciel ultra bête, comme psychologue. Pourquoi ? Parce que, en tant qu’êtres humains, nous avons tendance à projeter notre intelligence et nos attentes sur l’objet qu’on a devant. Nous pensions que nous parlions vraiment avec un psychologue, ce n’était pas du tout un psychologue. Maintenant, des gamins ou des personnes parlent avec ChatGPT en pensant que c’est un psychologue. Ce n’est pas un psychologue non plus, on fait des projections. Il est juste beaucoup mieux que ELIZA d’autrefois. Ce sont des nouveaux outils. Ces nouveaux outils ont le pouvoir incroyable de changer la façon que nous avons de travailler, mais ce n’est pas nouveau, à l’arrivée de l’ordinateur ça a été similaire, à l’arrivée de la calculette ça a été similaire, des métiers ont disparu, d’autres sont apparus.
La question c’est comment on développe ces outils, qui a le contrôle sur ces outils, si on a la transparence sur la façon dont ils ont été entraînés et ce n’est pas évident. C’est ce même combat qu’on mène dans le monde du logiciel libre depuis très longtemps : pourquoi je veux avoir le code source d’un logiciel si je ne suis pas informaticien ? Parce que je peux demander à un informaticien d’aller regarder si le code source fait vraiment ce qu’on a dit ou s’il y a un truc qui ne va pas du tout.
Le fait d’avoir des modèles d’intelligence artificielle transparents, ce n’est pas parce que n’importe qui va finir par les réutiliser, c’est trop compliqué, mais parce qu’on peut demander à quelqu’un d’autre d’aller regarder comment il est fait et s’il est effectivement adapté à nos besoins. Désolé, je vais encore un peu plus loin, on est engagé dans le monde de l’IA maintenant, on ne l’avait pas du tout prévu, parce qu’on a découvert, par exemple, que pour entraîner des modèles d’IA de grande qualité, il est nécessaire, même si vous faites juste des dessins, des images ou du texte, de rajouter 10 % de code source dans les données d’entraînement. Ça améliore la qualité, il y a maintenant des travaux scientifiques qui le prouvent. C’est une sorte de secret.
Delphine Sabattier : Intégrer 10 % de logiciels open source améliore les réponses du chatbot.
Roberto Di Cosmo : On ne sait pas quels codes parce que pas tout le monde ne dit ce qui est intégré.
Le fait qu’ils lisent du code améliore les réponses, donc mon interprétation, qui ne vaut rien, je ne suis ni psychologue ni expert en IA, mais si on pense juste à ce qui nous arrive quand on va à l’école : même pour devenir journaliste, on vous apprend à faire des sommes et des divisions, même si vous devenez mathématicien, on vous fait étudier l’histoire. Le fait que vous arrivez à être efficace vient du fait que vous connaissez plein de choses. Comme le code source est très formel, il n’y a pas d’ambiguïté, il est exécutable, etc., apparemment – prenez ça avec des pincettes –, il améliore la capacité de raisonnement.
Pourquoi est-ce important pour nous ? Parce que tout d’un coup, en étant assis sur la plus grande masse de codes disponibles sur la planète, on peut fournir la meilleure source pour entraîner des modèles de meilleure qualité. Ça nous pose une question : est-ce qu’on doit le faire ?
Delphine Sabattier : Eh oui, parce que ces modèles, eux, ne seront pas forcément ouverts.
Roberto Di Cosmo : Voilà ! Ça nous a fait beaucoup réfléchir, en 2023, quand ceci est arrivé. Des gens venaient nous voir en disant « si on vous paye, vous pouvez nous donner votre archive ? ». Si nous avions été une startup, ça aurait été facile, oui un million et je vends, mais nous ne sommes pas une startup, nous sommes une fondation à long terme, donc nous avions trois principes :
vous prenez tous les codes de la planète, c’est de la connaissance commune et, première chose, vous rendez ces connaissances dans le modèle de la fondation, c’est-à-dire la version compressée de l’information, vous le rendez à tout le monde ;
vous dites que ce que vous avez mis dans les modèles en le rendant à l’archive, c’est la transparence : est-ce qu’il y a des biais, est-ce que vous avez mis par exemple des tests.
Delphine Sabattier : Ça veut dire que c’est une forme de licence que vous créez ?
Roberto Di Cosmo : Ce n’est pas vraiment licence parce qu’on n’est pas propriétaire des données. En Europe, il y a un droit de propriété intellectuelle pour les bases de données, ça s’appelle les droits sui generis pour les bases de données [6]. Si vous avez fait beaucoup d’efforts pour constituer une collection de données, peu importe ce qu’il y a dans la collection, et c’est bien le cas, nous avons mis beaucoup d’efforts pour la constituer, les gens n’ont pas le droit de la copier sans votre accord. On utilise cela pour convaincre ceux qui veulent travailler avec nous de respecter ces principes : rendre les modèles, la transparence, et accepter de faire de l’opt-out pour les personnes qui ne veulent pas être utilisées dans l’entraînement et ça commence à marcher. IBM, Infosys et TII [Technology Innovation Institute] ont signé un accord avec nous. Trois grands acteurs. Donc, tout en étant tout petits, tout en ne faisant que du logiciel, nous sommes en train de changer, j’espère dans la bonne direction, la façon de se comporter des acteurs qui entraînent l’IA.
Delphine Sabattier : Parce que maintenant ils ont besoin de vous, c’est ce que vous dites.
Roberto Di Cosmo : Il y a des acteurs qui veulent faire les choses bien et, s’ils veulent les faire bien, ils viennent nous voir et respectent ces principes.
Il y a des acteurs qui ne veulent pas faire les choses bien, qui passent leur temps à nous scraper avec des bots, tout le temps, comme ça arrive à tout le monde.
Delphine Sabattier : Vous parliez de la résilience, de la cybersécurité, en expliquant justement qu’avoir cette grande archive, cette bibliothèque de codes sources est un moyen de pouvoir toujours trouver une solution pour passer outre la fin d’une mise à jour décidée par un acteur commercial et tout ça. Mais qu’en est-il de la résilience de cette base de données, des moyens que vous avez à votre disposition pour « cybersécuriser », finalement, la bibliothèque ?
Roberto Di Cosmo : C’est une très bonne question. Il y a deux approches :
soit vous pensez que vous êtes les meilleurs du monde, et vous dites « circulez il n’y a rien à voir, on est très forts, nous faisons tout »,
soit vous acceptez que ça ne marche pas forcément trop bien. Un comique, en Italie, m’avait fait beaucoup rire, il est arrivé sur scène en disant : « Ah ! Le Titanic ! Si on l’avait appelé "voyons voir si ça flotte" peut-être qu’il serait encore là. » Il ne faut pas être trop présomptueux. Nous sommes plutôt dans le mode « voyons voir si ça flotte ».
Delphine Sabattier : Ils disaient c’est l’insubmersible, ils étaient sûrs d’eux, ils ne se posaient pas le problème.
Roberto Di Cosmo : C’est pour cela qu’ils ont coulé. Donc nous disons « au risque de plonger, qu’est-ce qu’on peut faire pour faire fluctuat nec mergitur comme on disait à Paris « il flotte mais ne coule pas. » ? On a dit qu’on allait essayer de faire autant de copies qu’on peut de toutes les données, avec des entités différentes, dans des pays différents, avec des technologies différentes, de telle façon que si une de ces copies brûle, part en fumée, les autres sont encore là. On a donc quatre copies en Europe et on travaille, il y avait une dame du ministère de la Recherche.
Delphine Sabattier : Le risque c’est d’avoir une des copies ou, encore pire, l’original qui soit touché, détruit, détérioré, effacé, infiltré ou je ne sais quoi et que les autres copies, finalement, soient mauvaises.
Roberto Di Cosmo : Non parce que, de la façon dont on le fait, on ne peut jamais retirer quelque chose, on ne peut que rajouter, vous pouvez éventuellement rajouter des choses nouvelles de votre côté, mais l’historique reste le même. Et chaque objet est identifié par une clé cryptographique, qui est devenue un standard ISO au mois d’avril dernier qui est, par ailleurs, notre contribution, la contribution de Software Heritage sur la sécurité européenne parce que le Cyber Resilience Act [7] a été voté. Les standards sont en train d’être discutés. Les identificateurs qui ont été créés, qui ont été normalisés, qui sont utilisés pour 50 milliards d’objets dans Software Heritage, vont devenir, on espère, une partie des solutions que l’Europe va mettre en place, on ne sait pas quand ce sera fini, pour tracer des composants logiciels.
On démarre, on fait la bibliothèque d’Alexandrie, on fait une archive poussiéreuse qui contient des choses et on arrive finalement à de la technologie...
Delphine Sabattier : Ce n’est pas comme cela que vous l’aviez raconté au début non plus.
Roberto Di Cosmo : C’est vrai. Mais vous voyez comment ça passe automatiquement de raconter l’histoire du logiciel, à comprendre comment il a été fait, à améliorer la qualité, garantir la sécurité et tout cela avec une seule infrastructure, la même.
Delphine Sabattier : Et cette infrastructure est 100 % maison, Inria ? D’où viennent ces technologies ?
Roberto Di Cosmo : C’est une très bonne question qu’on s’était aussi posée à l’époque : qu’est-ce qu’on fait ? On essaye de trouver les meilleurs composants sur le marché, éventuellement propriétaires, pour construire Software Heritage, ou est-ce qu’on essaye d’utiliser seulement du code open source pour le faire ? On a décidé d’utiliser seulement de code open source, il n’y a pas une ligne de code propriétaire dans notre infrastructure, pas dans l’archive, au niveau de l’infrastructure parce que si on doit être là sur le long terme, on ne serait pas crédible si on dépendait de composants sur lesquels on n’a pas de maîtrise. Ça nous oblige à accepter, parfois, d’avoir des solutions technologiques qui ne sont pas les meilleures.
Chez nous tout est entièrement, entre guillemets, « maison », mais on ne fait pas tout à partir de zéro, on utilise des composants de la communauté qui sont bien connus, Apache, PostgreSQL, Cassandra, désolé pour le technicisme, ce sont des choses bien connues, safes, mais les miroirs sont libres d’utiliser leur propre technologie, ce qui est super intéressant. On garde les mêmes formats, les mêmes standards, mais ils peuvent utiliser des technologies différentes. Et aujourd’hui, si on regarde les miroirs qu’on a, ils ont trois technologies différentes, ce qui est encore mécanisme de protection : si un échoue, l’autre peut-être pas, c’est ce qu’on appelle de la biodiversité informatique. On essaie donc de faire tout cela.
Delphine Sabattier : Et le stockage, les serveurs ?
Roberto Di Cosmo : Le stockage, les serveurs. Maintenant on a un billion de pétaoctets de données propres, si on mettait tout ensemble on arriverait à peu près à six pétaoctets de données mises dedans, ce n’est pas non plus faramineux, mais c’est énorme pour une petite organisation comme la nôtre. Les données sont dans un datacenter qui est porté par Inria, en partie dans un datacenter porté par le CEA [Commissariat à l’énergie atomique et aux énergies alternatives].
L’autre chose qu’on a annoncée aujourd’hui, c’est la collaboration avec GENCI [Grand équipement national de calcul intensif] qui est le réseau national des super ordinateurs. On va tout consolider dans un datacenter professionnel public, celui de GENCI, qui a un super ordinateur qui trouve à Montpellier et on va continuer à avancer. Mais, pour cela, on a besoin du soutien du ministère de la Recherche pour financer ce type de transition qui est cher. C’est l’épaisseur du trait dans le budget, évidemment, mais c’est nécessaire de le faire pour sécuriser ces données sous le long terme, c’est, pour nous, au-delà de ce que nous pouvons faire seuls.
La prochaine étape au niveau européen : l’Europe est en train de planifier d’investir des milliards dans Software Heritage.
Delphine Sabattier : Y a-t-il un équivalent de Software Heritage au niveau européen ou aux États-Unis ?
Roberto Di Cosmo : Pas du tout.
Delphine Sabattier : Pas du tout. D’accord. Donc la France est pionnière.
Roberto Di Cosmo : Quand on a commencé, ça n’intéressait personne et, maintenant, ça intéresse tout le monde, heureusement. On est là et on attend juste qu’on découvre qu’on est là et qu’on n’attende pas de refinancer encore un truc qui va être développé dans cinq ans, mais que les financements arrivent pour développer cette infrastructure qui est commune. C’est un bien commun, on parle beaucoup de biens communs aujourd’hui et nous sommes inscrits dans le registre international des biens communs depuis la semaine passée.
Delphine Sabattier : Roberto Di Cosmo, je crois que je peux vous libérer parce que votre journée n’est pas terminée.
Roberto Di Cosmo : Tout à fait, il faut faire la clôture.
Delphine Sabattier : Exactement. Je vous souhaite une très belle clôture.