Que restera-t-il de mon site web dans 50 ans ? Devoxx FR 2024

Bonjour à tous et bienvenue à mon talk qui s’intitule « Que restera-t-il de mon site web dans 50 ans ? ».
Je m’appelle Clara Wiatrowski, je suis développeur Java à la Bibliothèque nationale de France, la BnF.
On va essayer de voir comment les missions de la BnF vont pouvoir répondre à cette question.
On va suivre un plan : on va parler de dépôt légal, à la fois pour le livre mais aussi pour le Web, ensuite on parlera collecte et puis on terminera par la question de la rejouabilité.

En introduction, la Bibliothèque nationale de France, ou BnF, est sous tutelle du ministère de la Culture. Elle a quatre missions principales : collecter le patrimoine de la France, le sauvegarder, l’enrichir et ensuite le communiquer.
Vous pouvez voir ici les deux sites parisiens principaux de la Bibliothèque nationale.
En haut, vous avez celui du 13e arrondissement, dit de Tolbiac, avec des salles de lecture ouvertes au public ; en bas, vous avez le site du 9e arrondissement, qui est la bibliothèque de Richelieu, qui a été rénovée et qui est ouverte aussi au public avec sa salle de lecture, la salle ovale.

La bibliothèque collecte le patrimoine ; elle le collecte par quels moyens ?
Il faut remonter en 1537. C’est François 1er qui a inscrit, au code du patrimoine, la mission du dépôt légal. À l’époque, en 1537, ça ne concernait que les livres. Au fil des années, on s’est rendu compte que, dans le patrimoine, il fallait incorporer d’autres types de documents comme les cartes et plans, comme les partitions, etc. Donc, le périmètre du dépôt légal s’est élargi.
Il faut savoir qu’aujourd’hui on a plus de 16 millions de livres qui sont sauvegardés à la BnF. Par exemple, si vous voulez des périodiques, on en a plus de 410 000 et on en a encore 35 000 qui sont actifs. Sur les choses plus récentes et plus sexy, on a 22 000 jeux vidéos.
Cela, c’est la frise du dépôt légal.

Si on prend la frise du Web, en 1989 on a la naissance du Web aux États-Unis et, quelques années après, en 1996, on a la création de Internet Archive [1], une association à but non lucratif. On se rend compte que les Américains, quelques années après, se posent une question : comment pourrait-on sauvegarder le Web ? C’est changeant, ça bouge, une fois qu’on remplace le code on ne l’a plus. C’est donc la mission d’Internet Archive
Pour ceux d’entre vous qui connaissent le plus Internet Archive, ils ont, en ligne, leur Wayback Machine [2]. C’est ouvert, vous pouvez y accéder, vous rentrez l’URL d’un site web. Prenons notre site favori, www.devoxx.fr, on peut se rendre compte qu’on a plusieurs archives depuis la création du site fin 2011 jusqu’à aujourd’hui.
Tout cela, c’est bien, mais on est aux États-Unis et, ce qu’on veut, c’est prendre des décisions vis-à-vis des sites français.

En 2003, on a le consortium IIPC pour International Internet Preservation Consortium [3] dont la Bibliothèque nationale de France est membre fondateur. Aujourd’hui, ce consortium est composé de 52 membres qui peuvent être des bibliothèques, des musées ou des archivistes.
Donc, au niveau mondial, la question est pertinente et on est plusieurs à se la poser.

Toujours du point de vue français, il faut encore attendre quelques années : en 2006, on a la loi DADVSI [relative au droit d’auteur et aux droits voisins dans la société de l’information ] [4] qui définit le dépôt légal du Web. Super, on a notre loi, mais on ne peut pas encore collecter le Web. Il faut attendre 2011 pour qu’il y ait un arrêté qui précise l’application de la loi. À partir de 2011, c’est la porte ouverte à la collecte.

Quel est le périmètre du dépôt légal du Web ?
Vous vous en doutez, ce sont tous les sites en.fr, mais pas que.
Ce sont aussi les sites aussi en .re,.nc,.bzh ou toutes les extensions particulières comme le .paris.
Ce sont aussi tous les sites dont la personne productrice habite en France.
Et enfin, ce sont tous les sites dont le contenu est produit en France.
Ça fait donc un périmètre assez large et il faut savoir qu’il n’y a pas que la Bibliothèque nationale qui collecte le Web, il y a aussi l’INA, l’Institut national de l’audiovisuel, mais dans son périmètre, c’est-à-dire que les sites concernant la télévision ou la radio ; le reste, c’est dans le périmètre de la Bibliothèque nationale

On a deux petites adaptations par rapport au cadre juridique du dépôt légal papier.
Dans le cadre d’un livre, c’est à votre imprimeur ou votre éditeur de faire la démarche de dépôt légal : il doit donc se charger d’envoyer une copie à la Bibliothèque nationale.
Dans le cadre des sites web, on ne va pas vous demander d’envoyer une copie de votre site à la Bibliothèque, on envoie des robots qui vont parcourir le Web, collecter ou le crawler.

On a un autre principe qui est celui d’exhaustivité.
Pour un dépôt légal papier, on veut avoir toutes les versions qui existent, toutes les éditions, les rééditions, qu’importe si c’est le même texte, on veut absolument toutes les versions, tous les exemplaires qui existent.
Sur les sites, on ne va pas faire la même chose. On va prendre ce principe d’exhaustivité et on va le remplacer par un principe de représentativité, c’est-à-dire qu’on va faire une sélection. Par exemple, si on prend un réseau social, on ne va pas collecter tous les profils des personnes résidant en France, on va faire une sélection de quelques profils qui seront représentatifs de ce réseau social.

Avec tout ce contexte, c’est parti pour la collecte. Il me reste à vous présenter le robot.
Le petit nom de ce robot de collecte est Heritrix 3, c’est un projet open source qui a été initié par Internet Archive et il est aujourd’hui sous la tutelle du consortium IIPC. Vous avez le lien [5], vous pouvez récupérer le code source, le lancer localement et archiver localement le Web. Il faut retenir qu’il est entièrement écrit en Java.

Vous allez vite vous rendre compte que si vous voulez archiver le Web, juste donner des sites web, des URL de sites web, ça ne va pas suffire, il faut aussi donner des paramètres associés à ces sites.

Le premier paramètre, c’est le budget.
On va associer à un site à un nombre d’URL autorisées.
Par exemple, si vous voulez collecter une page d’accueil, ça fait une URL et, pour tous les composants de cette page d’accueil, ça va faire une URL par composant : pour la feuille de style, pour le JavaScript, pour chaque image contenue dans votre page. En fait, le budget se parle en centaines, voire milliers d’URL.

Ensuite, on a la profondeur.
Comme je vous l’ai dit, sur un site on peut dire qu’on ne veut que la page d’accueil, donc on a une profondeur de 0 ;
on peut aller à la page d’accueil plus un clic, donc tous les clics qui sont faits à partir de cette page, etc. ;
après, on peut collecter tout le domaine, monsupersite.fr, devoxx.fr ;
on peut collecter aussi un sous-domaine si on avait un host en plus.

Enfin, on a un paramètre associé qui est la fréquence.
Si le site a peu de mises à jour, ça peut être une fréquence d’une fois par an ou une fois par mois suivant ces mises à jour. Après, on peut être plus rigoureux, c’est-à-dire une fois par jour ou même plusieurs fois par jour. Si on prend la page d’accueil de lemonde.fr, on se rend compte qu’au fil de la journée cette page change, donc nous collectons cette page plusieurs fois par jour pour être représentatifs de l’actualité.

Ces trois paramètres sont sélectionnés par des bibliothécaires qui font des sélections de sites représentatifs.

L’équipe du dépôt légal du Web va associer à ces sites des filtres qui peuvent être plus ou moins génériques, c’est-à-dire qui s’appliquent tous à tous les sites ou spécifiquement à un site.
Par exemple, toujours dans le cas des réseaux sociaux, quand vous ouvrez le code source de la page, vous pouvez très facilement découvrir les URL qui redirigent vers toutes les langues supportées par le réseau. On est dans le cadre du dépôt légal du Web français, on se fiche des autres langues, on ne va garder que le français, donc on va filtrer ces autres URL.

Comment le robot fonctionne-t-il ?
On a la liste d’URL de départ, les sites qu’on veut collecter, on a les paramètres qui sont associés, on va donner tout cela à Heritrix. Heritrix va faire une requête http,https. Pour vous rendre compte de ce qu’il obtient, c’est comme si vous faisiez un cURL [client URL request library] dans votre console.
Suivant l’URL, ça peut l’emmener vers du binaire, donc, en fonction du type-mime, il va stocker directement la réponse avec le bon format ou alors il peut obtenir du texte ; si c’est du texte, il va parser cette réponse à la recherche de nouvelles URL et, s’il en découvre, il va vérifier que le budget, la profondeur et les filtres sont actifs, ou pas, sur ces URL et, ensuite, en fonction des résultats, il va pouvoir les ajouter à la liste de départ.
Dans tous les cas, il y a un stockage de la réponse et ce stockage se fait sous format d’un fichier WARC. On n’est pas allé bien loin pour fichier WARC, ça veut dire WebARChive.
À première vue, ça peut être très compliqué, il faut retenir qu’un fichier WARC est un ensemble d’enregistrements. Ces enregistrements peuvent être soit des métadonnées, soit la requête qui est faite au serveur, soit la réponse du serveur.
Le point intéressant, c’est qu’on peut aussi avoir des revisits, c’est-à-dire que quand le robot est déjà passé sur cette URL et que la réponse du serveur est exactement la même, il ne va pas la stocker tel qu’elle, il va stocker seulement le pointeur vers la réponse initiale, comme cela on optimise le stockage.

Parlons un petit peu chiffres.
En 2023, on a collecté 5,8 millions de domaines, ce qui fait plus de 6,3 milliards d’URL et, pour réussir à collecter tout cela, on a une flotte de 70 robots en parallèle.
Depuis 96, on a plus de 55 milliards d’URL, ce qui nous fait une archive de plus de 2 pétaoctets soit 2000 téraoctets.

Comme je vous ai dit, les producteurs de sites ne sont pas obligés de faire une démarche vers la BnF, leur site va être collecté. On peut aussi avoir des gens qui nous disent : « Mon site est en ligne, il va bientôt fermer, est-ce que vous pouvez faire une sauvegarde ? ». En 2023, la plateforme Skyblog a fermé et, avant cette fermeture, elle a demandé à la BnF de collecter tous les blogs qui étaient encore en ligne à cette époque, ce qui représente 12 millions de blogs soit quarante téraoctets de données.

Un petit point sur l’open data.
Les sites qui sont sélectionnés par la BnF, avec les paramètres de collecte, sont accessibles sur les sites api.bnf.fr ou data.gouv.fr.

Parlons rejouabilité.
Voici les archives de l’Internet, c’est la Wayback Machine de la Bibliothèque nationale. Elle repose sur le code source de la Wayback Machine, aussi accessible en ligne. Vous pouvez faire une recherche par URL ou passer par une sélection de sites. On vous propose assez régulièrement de faire une entrée thématique dans les archives et de retrouver des archives représentatives. Par exemple, cette année ce sont les JO, on va avoir une sélection JO qui va être mise en valeur.

Si vous voulez accéder aux archives de l’Internet, il faut vous rendre sur un des sites parisiens de la BnF ou sur le site d’Avignon ou alors sur un des 21 établissements en province qui sont des bibliothèques partenaires.

Petite démonstration.
Nous allons prendre notre site favori, www.devoxx.fr. On se rend compte qu’on a 428 entrées dans les archives de la Bibliothèque nationale. Ces archives, comme pour la Wayback Machine, sont organisées par date, donc vous avez le choix de l’année, ensuite, selon l’année, vous avez un tri sur un calendrier, etc.
Voilà le site de Devoxx France d’aujourd’hui. Je vous propose de remonter son histoire.

Pour répondre à la question de ce talk, « Que restera-t-il du site de Devoxx France dans 50 ans ? », je ne peux pas vous donner la réponse. En tout cas, ce qui est sûr, c’est qu’aujourd’hui le site de Devoxx France fait partie du patrimoine français et fait partie des archives de l’Internet français.

Merci à tous pour votre attention.

[Applaudissements]