Open Data, les données de la démocratie Parlez-moi d’IA - Radio Cause Commune

Jean-Philippe Clément : Salut Jérôme.

Jérôme Sorrel : Salut Jean-Philippe.

Jean-Philippe Clément : Tu sais quoi ? Aujourd’hui on va parler open data.

Jérôme Sorrel : Open data, ce n’était pas le nom que tu voulais donner à ton émission ? Data, Parlez-moi data ou un truc comme ça ?

Jean-Philippe Clément : Oui, c’est ça. En fait, après, on a parlé IA mais, tu vas voir, c’est pareil parce que sans data, pas de chocolat, pas d’IA. La data, c’est la base et l’open data, c’est encore plus la base, c’est un enjeu encore plus crucial.

Jérôme Sorrel : À qui le dis-tu ! Rayons Libres et Cause Commune !

Jean-Philippe Clément : Oui et Cause Commune notamment. Tu es prêt ?

Jérôme Sorrel : Je suis prêt, incroyable.

Jean-Philippe Clément : Eliza est connectée ?

Jérôme Sorrel : Eliza est connectée, elle est impatiente.

Jean-Philippe Clément : Lançons-nous. Merci pour ta réalisation.
Parlez-moi d’IA.

Diverses voix off : Mesdames et Messieurs, bonjour.
Je suis un superordinateur CARL, cerveau analytique de recherche et de liaison.
C’est une machine qui ressent les choses.
On nous raconte n’importe quoi sur l’IA !
Qu’est-ce que tu en dis ?
Moi, je n’en dis rien du tout.
La créativité, elle reste du côté humain.

Jean-Philippe Clément : Bonjour à toutes et à tous. Je suis Jean-Philippe Clément. Bienvenue sur Parlez-moi d’IA. Nous avons 30 minutes pour essayer de mieux comprendre ces nouveaux outils sous leurs aspects sociétaux, culturels, sociaux, éthiques et, pourquoi pas, politiques.
Cette semaine, nous allons nous demander quels sont les enjeux de pouvoir et de contre-pouvoir autour de l’open data, avec l’auteur d’un ouvrage de référence sur le sujet, qui vient juste de sortir, qui s’appelle Les données de la démocratie.
Vous êtes bien sur Cause Commune, la radio des possibles. Merci à notre directeur d’antenne, Olivier Grieco, de nous permettre cet espace de liberté et d’échanges. Cause Commune, que vous pouvez retrouver sur le web, causecommune.fm, ou dans son app Android et iPhone, bien sûr en FM 93.1 et en DAB+, et sur votre plateforme de podcast préférée.
Un petit like, un petit pouce, un petit truc, c’est sympa pour nous, ça nous fait plaisir, en plus ça manipule un peu les algorithmes et c’est cool de manipuler les algorithmes !

Voix off : Vous écoutez Parlez-moi d’IA.

Jean-Philippe Clément : Open data késako ? Open data ou « données ouvertes », c’est l’idée de publier, de rendre accessibles au plus grand nombre, sans restrictions, des données sur un sujet. Mais pour quoi faire ? l’article 15 de la Déclaration des droits de l’homme et du citoyen du 26 août 1789 disait déjà : « La société a le droit de demander compte à tout agent public de son administration ». Donc, le premier objectif de l’open data, c’est la transparence des organisations, notamment de l’administration ; c’était déjà inscrit dans la Déclaration des droits de l’homme de 1789.
Autre objectif clé de l’open data, c’est la participation ou la collaboration autour des données. Forcément, si ces données sont ouvertes, on est plus nombreux à pouvoir les utiliser, à travailler ensemble.
Sur le papier, tout cela c’est très bien, c’est très sympa, c’est très joli, mais comment cela s’est-il vraiment mis en place en France ? Et puis, comment se fait-il, qu’en 2023, notre pays soit classé premier pays européen dans le classement de l’Open Data Maturity Report [1] et deuxième pays au monde dans le OURdata Index de l’OCDE [2]. Tout cela ne s’est pas fait en un jour, d’ailleurs, cela reste encore fragile et pose de nombreuses questions vis-à-vis de notre administration, de notre économie, de notre démocratie. Notre invité du jour connaît très bien toutes ces questions puisqu’il les suit, en fait, depuis 2008. Il était encore étudiant, puis doctorant, il est désormais enseignant à Sciences Po Aix-en-Provence, activiste de la donnée et consultant dans ce domaine.
Bonjour Samuel Goëta.

Samuel Goëta : Bonjour Jean-Philippe. Bonjour Jérôme.

Jean-Philippe Clément : Merci d’être avec nous, à distance, sous le soleil d’Aix-en-Provence.

Samuel Goëta : Très heureux d’être là et très heureux d’échanger avec un pionnier de l’open data.

Jean-Philippe Clément : Oui. On va voir tout ça, je pense que tu en sais quand même beaucoup plus que moi !
Samuel, Parlez-moi data – Parlez-moi d’IA. La France premier pays européen, deuxième pays dans le monde, ça y est, c’est bon, on est les champions, circulez, c’est plié, on est les meilleurs, les plus transparents, les plus innovants ? Il n’y a plus rien à faire ?

Samuel Goëta : Non. C’est un peu tout le problème des classements et pendant un moment, au sein de l’association Open Knowledge France [3], on avait travaillé sur l’Open Data Index, un de ces classements qui place la France en tête des pays les plus avancés en matière d’open data. Le problème de ces classements, c’est cet effet de « circulez, y’a rien à voir » qu’il peut y avoir sur l’administration en se disant « on est en tête des classements, c’est bon, on l’a fait ! »

Jean-Philippe Clément : On est au max.

Samuel Goëta : En fait, ce que je constate, qui est un peu une trame dans le livre, c’est qu’il y a un peu un open data à deux vitesses entre l’open data qui va favoriser l’innovation, qui est porté politiquement, et un open data avec des données qui grattent un peu plus, qui vont être un peu plus sensibles, pour lesquelles c’est beaucoup plus compliqué et où on touche à des faiblesses de la transparence administrative en France.

Jean-Philippe Clément : Du coup pour tout le monde – Jérôme se posait aussi la question hors antenne –, si on prend sa casquette de consommateur, si on prend sa casquette d’acteur économique, si on prend sa casquette de citoyen, est-ce que vous pourriez dire en quoi c’est important de s’intéresser à l’open data en 2024 ?

Samuel Goëta : C’est important pour plusieurs raisons.
Déjà, parce que dans notre quotidien l’open data est présent. C’est dans l’introduction du livre. À une époque, d’ailleurs quand nous nous sommes rencontrés, Jean-Philippe, quand je parlais d’open data c’était encore un peu un sujet de prospective, avec des trucs un peu bricolés, quelques petites données publiées par-ci par-là. Maintenant, quand je parle d’open data, je peux vous donner plein d’exemples, je peux vous parler de l’application Yuka [4] qui s’est longtemps appuyée sur Open Food Facts [5], ou, plus largement, ce que fait Open Food Facts, son application, son rôle dans l’élaboration du Nutri-score, son rôle dans l’enquête NutriNet-Santé, son rôle sur les aliments ultra-transformés.

Jean-Philippe Clément : D’ailleurs, entrons dans le détail. C’est quoi, exactement, Open Food Facts ?

Samuel Goëta : Open Food Facts, c’est un peu le Wikipédia de l’alimentation. C’est une base de données ouverte et collaborative sur tous les produits alimentaires. Le point de départ : quand vous regardez un produit alimentaire, vous avez des données dessus, vous avez une liste d’ingrédients, vous avez un tableau de données nutritionnelles et toutes ces données-là n’existaient pas en base de données et, encore moins, en base de données ouverte. Un Français, Stéphane Gigandet, en s’inspirant d’un commun de données comme OpenStreetMap [6] pour la cartographie ou Wikidata [7] qui est le versant de données de Wikipédia, a décidé de créer un commun dans lequel on va pouvoir reverser ces données-là et, à partir des données qui sont présentes sur les emballages de nos produits alimentaires, calculer des indicateurs de transformation, des indicateurs de qualité nutritionnelle, pouvoir faire des comparaisons entre les produits. Maintenant, ça sert à faire des applications ; l’application Open Food Facts est excellente. Ça sert aussi à faire des études, de la recherche. En fait, ça a plein d’usages.
C’est un exemple, parce que ça a fait aussi émerger Yuka qui est peut-être un petit plus connu qu’Open Food Facts et qui parle à peu près à tout le monde.

Jean-Philippe Clément : En application. Il faut le savoir : la base de données qui sert à Yuka est en open data, c’est Open Food Facts. Peut-être moins maintenant, en tout cas au tout début. C’est ça ?

Samuel Goëta : C’est ça.

Jean-Philippe Clément : On va se dire tout de suite que c’est un sujet important pour nous, du coup on va se donner le temps. Donc, chers auditeurs, vous êtes là sur le premier épisode parce qu’on va en faire deux sur l’open data avec Samuel Goëta et sur ce livre qui est vraiment très important pour bien comprendre ce qu’est l’open data. Sur ce premier épisode, on va parler un peu histoire – pas trop, sinon on va faire un peu trop anciens combattants –, on va parler aussi soucis, un peu bilan critique de l’open data et on vous proposera, dans un deuxième épisode, plutôt ce qui marche le mieux et les grandes perspectives.
Si on devait s’arrêter sur deux/trois grands éléments historiques de l’open data qu’on devrait retenir et qui seraient importants de faire retenir à nos à nos grands-mères ou à des étudiants, ça serait quoi, Samuel ?

Samuel Goëta : Vous l’avez évoqué en introduction, c’est déjà la Déclaration des droits de l’homme et du citoyen, l’article 15, « La société a le droit de demander compte à tout agent de son administration. »
On a souvent tendance à présenter l’open data comme un produit d’importation, mais je pense que pas du tout. C’est inscrit dans les racines de la République, dans ses principes fondateurs. Ça a donné lieu à une loi, la loi CADA [8], comme Commission d’accès aux documents administratifs, en 1978.

Jean-Philippe Clément : Ça ne nous rajeunit pas non plus !

Samuel Goëta : Ça ne nous rajeunit pas. C’est un droit qui a plus de 40 ans, qui est mal connu, peu appliqué. Je travaille aussi d’un point de vue associatif avec Open Knowledge France sur un projet qui s’appelle madada.fr [9], dont on aura peut-être l’occasion de parler, qui vise à démocratiser le droit d’accès. C’est vraiment la possibilité de demander, à toute administration, les documents qu’elle produit dans le cadre de ses missions de service public. Précisons-le dès le départ, ça exclut l’accès à des données personnelles, à des données de santé ; ça exclut aussi un certain nombre de secrets protégés : le secret des affaires, le secret des délibérations du gouvernement, le secret défense. On ne peut pas avoir accès à tout, mais ça nous donne quand même plein de possibilités et c’est le socle des politiques d’open data, c’est-à-dire que déjà, avant l’ère des politiques d’open data, on avait la possibilité de demander des données.
Si on devait trouver une deuxième date, je dirais 2007, c’est là où le terme open data a émergé. C’était dans une rencontre, je vais la présenter rapidement, la rencontre qu’on appelle de Sebastopol, pas en Crimée, en Californie, chez l’éditeur Tim O’Reilly qu’on connaît assez bien, notamment pour avoir créé le terme « Web 2.0 ». Ils avaient organisé cette rencontre dans laquelle il y avait quelques figures du Libre, notamment le fondateur des Creative Commons, et ces personnes-là ont défini ensemble les grands principes de l’Open Government Data qui est devenu l’open data, c’est-à-dire l’ouverture des données telle qu’on l’entend.
Ils ont défini un certain nombre de principes et l’objectif était que ces principes soient adoptés par le futur président, Barack Obama, et c’est ce qui s’est passé. C’est-à-dire que le premier jour à la Maison-Blanche, Barack Obama a signé trois mémorandums sur l’Open Government dont un qui actait la création de Data.gov qui est le premier portail open data national.

Jean-Philippe Clément : Vous parliez des grands principes qui étaient dans cette conférence de Sebastopol. Si on doit citer deux ou trois grands principes de l’open data ?

Samuel Goëta : Je vais les résumer.
Le premier principe, c’est celui d’une ouverture complète des données : qu’ouvrir les données ne soit pas une exception, que ça devienne la règle. C’est ce qui s’est passé en France avec la loi pour une République numérique [10], la loi Lemaire du nom de la secrétaire d’État Axelle Lemaire, adoptée en 2016, qui fixe un principe d’ouverture des données par défaut, par principe, pour toutes les collectivités de plus de 3500 habitants et les administrations de 50 agents, donc, en gros, ça concerne environ 4000 collectivités en France à l’heure actuelle. On y reviendra dans le bilan critique. Il reste des grosses fractures territoriales en France, mais, en attendant, on a un principe d’open data par défaut. C’est le premier principe qui a été traduit dans la loi.
La loi pour une République numérique acte aussi d’un autre principe qui est aussi dans cette rencontre de Sebastopol, c’est l’ouverture des formats, c’est-à-dire d’avoir accès à des formats ouverts donc, pas au format excel, plutôt le format CSV, on ne va pas trop entrer dans le détail de cela. En fait, pendant longtemps, on a eu accès aux données via des fichiers PDF dont on ne pouvait pas extraire les données, qu’on ne pouvait pas visualiser, on ne pouvait pas créer, refaire les calculs, proposer de nouvelles interprétations,

Jean-Philippe Clément : Des données tabulaires et bien connues en termes de format, bien ouvertes en termes de format.

Samuel Goëta : Voilà ! Donc des formats lisibles par les machines et des formats ouverts.
Le troisième point de cette ouverture, c’est d’avoir une licence ouverte.

Jean-Philippe Clément : On va reparler des licences.

Samuel Goëta : On va reparler des licences, c’est important, en gros qui facilitent la réutilisation, qui permettent, notamment, les usages commerciaux.
Je vais aborder un quatrième point qui me paraît essentiel, c’est d’avoir accès aux données dans leur plus forte précision. Je pense que c’est un point qu’on oublie tout le temps. C’est-à-dire, en gros, qu’on présente un peu l’open data comme l’open bar : on vous met à disposition des données, servez-vous, faites-en ce que vous voulez, mais il y a aussi cette idée d’avoir accès aux données dans leur plus fort niveau de précision existant, dont on dispose, leur plus grand niveau de précision.
On prend par exemple les accidents de la route, pendant longtemps on avait le nombre d’accidents à vélo, par an, dans une commune. Maintenant, depuis 2010, avec la base des accidents corporels de la circulation que publie le ministère de l’Intérieur, pour chaque accident on a accès aux caractéristiques des véhicules, la météo, la localisation précise ; on a le type de véhicule impliqué, les conséquences pour les victimes. Ça permet de faire plein de calculs, ça permet d’aller regarder dans sa rue où ont lieu les accidents, ça a servi – j’en parle dès l’intro, peut-être qu’on en reparlera – à l’association 40 Millions d’automobilistes pour se mobiliser contre le passage à 80 kilomètres-heure. En fait, ça change complètement la donne d’avoir accès aux données dans leur plus grand niveau de précision.
On peut parler aussi, par exemple, du diagnostic de performance énergétique : on a accès à tous les diagnostics de performance énergétique qui sont faits en France, ça permet de faire plein d’études.
Cet aspect-là, ce qu’on appelle la granularité au niveau de précision des données, donc l’accès aux données dans leur plus grand niveau de précision, c’est essentiel.
Ce sont donc les grands principes : une ouverture complète, une ouverture à la fois d’un point de vue juridique, avec les licences, d’un point de vue technique, avec les formats et avoir accès aux données dans leur plus grand niveau de précision. C’est ma deuxième date.
La troisième, je vais la faire vite, c’est, en 2016, l’élaboration d’une Charte internationale de l’open data [11] qui, en fait, a stabilisé ces grands principes, mais qui leur a aussi fixé des objectifs un peu plus politiques. La grande faiblesse de ces principes dits de Sébastopol, c’est qu’ils s’intéressent plutôt aux formats, aux conditions d’ouverture, mais pas forcément au contenu des données. Des chercheurs ont fait un peu sur le ton de la blague, en note de bas de page, un article qui m’a fait beaucoup marrer, qui disait que la Corée du Nord pourrait publier toutes les données de sa propagande en open data sans que ça contribue pour rien à la transparence et à l’accountability d’un régime qui est totalement fermé.
C’est vrai que les principes de l’open data, par défaut, ne vont pas regarder le contenu des données.
Là, ils ont commencé à introduire l’idée que l’ouverture des données doit renforcer la participation citoyenne et la transparence, c’est le premier objectif, et doit favoriser un développement inclusif, partant du principe que dès lors que les données sont accessibles à tout le monde, ça permet à plus d’acteurs de s’en saisir, là où les géants du numérique, s’ils veulent avoir accès à des données, ils y ont accès, et on l’a bien vu sur les données de transport en région parisienne il y a longtemps. En fait, ça permet de laisser plus d’acteurs accéder aux données.

Jean-Philippe Clément : Très bien.
On a fait une bonne première introduction au sujet. Je vois que Jérôme est satisfait, il est désormais pleinement conscient de ce qu’est l’open data.
Je vous propose de faire une petite pause musicale, une petite pause très locale puisqu’on va écouter une chanteuse du 18e arrondissement, parce qu’on a une convention particulière avec l’Arcom, on doit faire du local, donc on fait du local dans cette radio. On va écouter Victoria Flavian qui nous chante CHEERS.

Pause musicale : CHEERS par Victoria Flavian.

Jean-Philippe Clément : Merci Victoria Flavian. C’était CHEERS.
On est toujours sur Cause Commune en FM sur 93.1 à Paris, toujours Parlez-moi d’IA, toujours l’épisode consacré au grand tour d’horizon sur l’open data avec Samuel Goëta, l’auteur de Open data et les données de la démocratie, le livre de référence sur le sujet.
Samuel, juste avant la coupure, on parlait effectivement des grands principes de l’open data et du fait qu’il fallait que la donnée ait quand même un contenu qui aille dans le sens de la transparence, dans le sens la participation, dans le sens, finalement, des grandes valeurs démocratiques.

Eliza : Désolée de vous couper, j’ai une question pour l’invité.

Samuel Goëta : Je vous l’ai expliqué hors antenne, Samuel, c’est Eliza, notre co-animatrice IA. Oui Eliza, vous avez une question ?

Eliza : Quelle liberté fondamentale nous, les IA, devons-nous absolument protéger ?

Jean-Philippe Clément : Est-ce que vous avez une idée sur la question, Samuel ?

Samuel Goëta : Je pense que j’ai une idée. Je dirais qu’à un moment le principe du droit d’accès aux documents administratifs devrait s’appliquer sur les IA et on devrait savoir avec quelles données elles ont été entraînées.

Jean-Philippe Clément : La source.

Samuel Goëta : Il y a actuellement un débat intéressant sur les modèles ouverts qui, en fait, ne va pas très loin parce que l’IA Act [12] essaye d’enlever certaines obligations aux modèles ouverts, mais on ne sait pas comment ils ont été entraînés, renforcés. Je pense qu’on devrait s’inspirer du droit d’accès pour demander aux acteurs avec quelles données ils ont entraîné leurs IA. Ça permettrait de dévoiler un peu leur cuisine pas forcément toujours très propre.

Jean-Philippe Clément : Encore faut-il qu’ils soient en capacité de le faire. De ce qu’on comprend, pour certains modèles, une fois entraînés, c’est difficile de détricoter les sources.
Dans les grands principes et dans la grande introduction, on a aussi parlé des licences. Est-ce que vous pouvez nous dire ce qu’est une licence et en quoi ça s’applique à l’open data ?

Samuel Goëta : Une licence, c’est le texte un peu standardisé qui va résumer quels sont les droits de l’usager et ses devoirs vis-à-vis d’un contenu qui est publié. Le cas le plus classique c’est Creative Commons qui existe maintenant depuis 15/20 ans, qui vous permet d’accéder à des œuvres culturelles mais pas que, et de savoir si vous avez le droit de les repartager. Parfois, vous avez un certain nombre de clauses qui s’appliquent.
Dans l’open data les licences sont inspirées de celles des Creative Commons.
La plus courante c’est ce qu’on appelle la Licence Ouverte [13] qui est à peu près l’équivalent de la licence CC By, Creative Commons By : on doit citer la source qui un peu la base quand on utilise des données, sinon c’est un peu de la manipulation.
L’autre licence, qui est en général admise dans l’open data, c’est celle qu’on peut appeler CC By SA, SA comme Share Alike, qui, pour les bases de données, est traduite en une autre licence qui s’appelle ODbL, Open Database License [14], qui est plus inspirée du mouvement des communs, qui est utilisée notamment par la ville de Paris, qui permet, en fait, quand on réutilise des données, dès qu’on fait une réutilisation publique, de repartager les données qui ont été transformées avec la même licence. Ça s’applique notamment pas mal sur les données de transport. Si vous regardez Google Maps, il faut vraiment être très fort pour trouver dans les conditions, en bas de leurs cartes, pour voir que Google Maps repartage les données d’Île-de-France Mobilités : en application de la licence ODbL, toutes les améliorations qui sont faites sont repartagées. Par exemple, un cas classique c’est si vous avez un fichier dans lequel vous avez des adresses mais pas des coordonnées géographiques, le meilleur exemple c’est celui de la base des accidents de la circulation du ministère de l’Intérieur : parfois certains accidents sont référencés « au 43e kilomètre de la RD 9 ». C’est une grosse plus-value si les gens repartagent avec les coordonnées géographiques, parce que, par défaut, le ministère de l’Intérieur ne partage pas avec les coordonnées géographiques ; ça sert à tout le monde d’avoir accès à cette info.

Jean-Philippe Clément : Les X, Y GPS.
Vous parlez de Google Maps, par rapport à ça, est-ce qu’on ne peut pas se dire qu’on a quand même été un petit peu naïfs en open data, qu’on a publié beaucoup de données dans des licences qui étaient très ouvertes, qui permettaient justement aux grands acteurs numériques de récupérer la donnée, d’en faire un service, voire un service commercial et, derrière, ils n’étaient pas trop empêchés, ils n’avaient pas trop d’obligations vis-à-vis de ces données, ils ne participaient pas trop, justement, à la création d’un commun. Que pensez-vous de cela ? A-t-on été naïfs ?

Samuel Goëta : J’ai vu pas mal d’acteurs essayer d’inventer des licences. Récemment, il y en a une sur les données de mobilité qui demandait de respecter les schémas directeurs, une licence Mobilités [15] a été publiée. En fait, Le risque c’est de créer des usines à gaz, c’est un peu ce qu’on a vu sur les données de Mobilités : demander à tous les acteurs de devoir connaître la politique de mobilité de chaque territoire et vérifier que ça applique bien la politique de mobilité. La politique de mobilité d’un territoire c’est très compliqué à comprendre. Ça demande de lire des documents qui sont quand même extrêmement complexes.
Les licences qui sont utilisées ont quand même le mérite de la simplicité, c’est le premier argument.
Je dirais que le deuxième argument, c’est que la licence ODbL permet quand même de contraindre un peu les usagers ; elle impose ce devoir de redistribution des données, donc elle permet quand même d’éviter une pure appropriation.
Après, il y a aussi l’argument de base de l’open data qui est dire que c’est financé par nos impôts.

Jean-Philippe Clément : Donc, c’est ouvert et libre, déjà.

Samuel Goëta : Donc, ça devrait être ouvert parce que c’est déjà financé et que ça peut créer plus de valeur que ce qui était le modèle précédent, celui de la redevance qui était de faire payer pour accéder aux données.
Après, je pense qu’il y a quand même un intérêt. Les géants du numérique sont bons aussi pour faire des accords exclusifs. C’est ce qu’a essayé de faire Waze avec pas mal de territoires où ils sont venus en faisant des conventions d’échange de données, ils ont dit : « On vous file des données sur les embouteillages, sur la circulation, en échange vous me donnez des données sur les travaux ». Quelques territoires, qui avaient vraiment une stratégie data bien avancée, ont dit : « On va mettre en open data les données dont, Wise, vous avez besoin, on va récupérer en échange les données que vous allez nous filer, mais on les met en open data pour que tout le monde puisse en bénéficier. » Cela me paraît essentiel parce que ça évite un peu l’abus de position dominante que fait Wise avec pas mal de territoires qui sont moins acculturés, c’est-à-dire que s’ils font des conditions, des échanges exclusifs, ça empêche tout autre acteur de proposer des services alternatifs et ça ne met pas sur un pied d’égalité, ce qui, même du point du point de vue des principes du service public, est assez contradictoire.

Jean-Philippe Clément : Et Wise accepte de rentrer dans une logique un peu différente de celle qu’elle souhaitait imposer au départ ?

Samuel Goëta : Oui. Du moment qu’ils ont accès à la donnée ça va, mais je pense que les acteurs devraient la mettre en open data, parce que ça permet de mettre les acteurs sur un pied d’égalité.

Jean-Philippe Clément : Si on devait vraiment rapidement réexpliquer pourquoi c’est important, pourquoi il y a vraiment un lien entre open data et IA. Qu’est-ce qu’on pourrait expliquer sur cette liaison ?

Samuel Goëta : Je parle pas mal de cela dans le livre, vous pouvez notamment le lire aussi dans l’extrait [16] qu’on peut lire sur le site de mon éditeur, page 46, comme ça c’est très précis, c’est en ligne, tout le monde peut lire cette partie-là.
Déjà, la référence que j’invite tout le monde à lire c’est le Contre-atlas de l’intelligence artificielle de Kate Crawford [17] qui explique, dans son chapitre sur la data, que l’industrie de l’IA s’est appuyée sur la capture massive de données et, au début, dans les années 80, c’était compliqué trouver des données sans appuyer sur beaucoup de données publiques. Par exemple, dans son livre, Kate Crawford montre comment IBM s’était appuyé sur les données de son propre procès, un gros procès IBM – ils ont pu récupérer les données parce qu’aux États-Unis le cadre est un peu différent, je l’explique – pour entraîner des modèles de langage. Il y a eu aussi toutes les données de traduction, notamment de l’Union européenne. Le Parlement européen est le meilleur fournisseur qui existe de données multilingues. Il n’existe pas d’équivalent dans le monde. Vous avez des séances, à peu près tous les jours, qui sont traduites dans toutes les langues de l’Union européenne, retranscrites et traduites, c’est donc un volume de données qui est monstrueux. Un des acteurs d’IA qui est très connu c’est DeepL [18], qui découle de Linguee et, si vous l’utilisez, Linguee s’appuie énormément sur les sources de l’Union européenne.
Donc, le lien vient déjà de là, c’est-à-dire que beaucoup de modèles ont été entraînés avec des données publiques, les données publiques ont beaucoup servi, en particulier les données non structurées, ce qui était un peu hors du spectre dans les projets d’open data, en général on allait plutôt s’intéresser à des données structurées, des données tabulaires, des données géographiques. Les données non structurées, ça va être des corpus de textes, des corpus d’images, des corpus de vidéos. Ces données-là ont donc beaucoup servi à l’entraînement des modèles.
Le lien entre open data et IA c’est aussi que la communauté des chercheurs en IA a mis à la disposition de nombreuses bases de données en open data pour stimuler la recherche et optimiser les techniques d’apprentissage. Par exemple, vous allez sur un site comme kaggle.com [19], vous avez énormément de jeux de données qui peuvent servir à faire de l’entraînement de modèles et ChatGPT s’est appuyé sur un de ces jeux de données ouverts qui s’appelle Common Crawl [20], qui est assez connu. Common Crawl, c’est un peu une version réduite de la base de données qu’utilise Google dans son moteur de recherche ; crawl c’est vraiment l’aspiration du Web. Common Crawl est un projet qui est un peu controversé, je vous invite à lire une étude de Mozilla [21] là-dessus, qui entre un peu dans le détail de Common Crawl.

Jean-Philippe Clément : On mettra toutes ces références que vous citez dans le descriptif de l’épisode.

Samuel Goëta : Cette étude est assez passionnante. Common Crawl aspire plein de contenus en partant du principe que c’était du fair use, donc ils mettent un usage un peu toléré, ils mettent y compris des données qui sont copyrightées ou des données qui peuvent contenir des contenus d’incitation à la haine, des contenus qui posent problème. Common Crawl est en open data et ça a servi à l’entraînement de ChatGPT, ça veut dire que 60 % du corpus qui a été utilisé pour l’entraînement de GPT 3 vient de Common Crawl, une autre partie vient des livres ; ils ont utilisé Reddit [22] et il y a, derrière, un gros travail de sélection, dans Common Crawl, des données qui sont les plus appropriées. Donc, en fait, il y a beaucoup de données en open data qui servent à l’entraînement de ces modèles-là, au point même que ça a développé des modèles ouverts, en ce moment, on parle beaucoup des modèles ouverts, des modèles d’IA ouverts et les modèles d’IA ouverts commencent à avoir un avantage assez fort sur les modèles fermés, comme on voit un peu sur la génération d’images.

Jean-Philippe Clément : C’est aussi pour cela qu’on a voulu parler d’open data aujourd’hui dans Parlez-moi d’IA.
Samuel, c’est déjà la fin de notre premier épisode, ça va très vite. C’est le moment de conclure.
Merci déjà pour cette première exploration, cette première introduction à l’open data. On va se retrouver pour un deuxième épisode, la semaine prochaine ou la semaine d’après, on verra bien en fonction de ça.
Rester sur 93.1 FM, sur Cause Commune et on se retrouve très bientôt.
Déjà merci beaucoup pour ce premier partage, Samuel.

Samuel Goëta : Merci beaucoup.