ChatGPT pour sauver la Démocratie ? Misons plutôt sur l’Open Data et ses valeurs avec Samuel Goëta Parlez-moi d’IA - Radio Cause Commune

Saviez-vous que la France est leader européen en Open Data ? Découvrez comment nous en sommes arrivés là ! Ce qu’il reste à améliorer encore et toutes les préconisations pour aller plus loin.

Jean-Philippe Clément : Salut Jérôme.

Jérôme Sorrel : Salut Jean-Philippe.

Jean-Philippe Clément : Ça va ?

Jérôme Sorrel : Oui, ça va bien.

Jean-Philippe Clément : On se refait un deuxième épisode open data. Tu te rappelles, on avait déjà reçu un Samuel Goëta [1].

Jérôme Sorrel : Je me souviens, c’était hyper-intéressant, il parlait notamment de Waze et de mobilité, il disait que c’était hyper-compliqué d’aller chercher ces data-là qui existaient.

Jean-Philippe Clément : Exactement. On essaie de creuser ce sujet avec lui. C’est parti.

Diverses voix off : Parlez-moi d’IA.
Mesdames et Messieurs, bonjour. Je suis un superordinateur CARL, cerveau analytique de recherche et de liaison.
C’est une machine qui ressent les choses.
On nous raconte n’importe quoi sur l’IA !
Qu’est-ce que tu en dis ? – Moi, je n’en dis rien du tout.
La créativité, elle reste du côté humain.

Jean-Philippe Clément : Bonjour à toutes et à tous. Je suis Jean-Philippe Clément. Bienvenue sur Parlez-moi d’IA.
Nous avons 30 minutes pour essayer de mieux comprendre ces nouveaux outils sous leurs aspects sociétaux, culturels, sociaux, éthiques et, pourquoi pas, politiques.
Cette semaine, comme il y a quelques semaines, on reparle open data avec Samuel Goëta.
Vous êtes bien sur Cause Commune, la radio des possibles. Merci à Olivier Grieco, notre directeur d’antenne, de nous donner cet espace de liberté et d’échanges. Cause Commune que vous pouvez retrouver sur le Web, causecommune.fm, sur son app mobile, également sur la bande FM 93.1 en DAB+ et en podcast sur votre plateforme préférée. N’hésitez pas à nous mettre des petits likes parce que ça manipule les algorithmes et c’est cool de manipuler un algorithme.

Voix off : Vous écoutez Parlez-moi d’IA.

Jean-Philippe Clément : Open data, on en a déjà parlé dans un premier épisode, si vous ne l’avez pas encore écouté n’hésitez pas à l’écouter. On a expliqué d’où vient ce terme d’open data, quelle est cette notion d’open data avec Samuel Goëta qui est, en fait, l’auteur d’un livre désormais référence sur le sujet, qui s’appelle Les données de la démocratie. Bonjour Samuel Goëta.

Samuel Goëta : Bonjour.

Jean-Philippe Clément : Prêt pour un deuxième épisode de Parlez-moi d’IA sur l’open data ?

Samuel Goëta : Très prêt.

Jean-Philippe Clément : Très prêt !
On en parlait avec Jérôme après le premier épisode, peut-être qu’une des questions que nos auditeurs peuvent se poser serait « c’est bien sympa leur truc d’open data, ça nourrit les IA et ça nourrit plein de services et tout ça, mais moi, citoyen lambda, finalement, comment ai-je accès à cet open data ? ». Où est-ce qu’on peut trouver de l’open data ? Où est-ce qu’on peut aller regarder de l’open data, aujourd’hui, sur le Web, Samuel Goëta ?

Samuel Goëta : C’est vrai qu’on aurait pu commencer par ça lors du dernier épisode. Eh bien, tout simplement vous allez sur data.gouv.fr [2], c’est le portail national des données ouvertes. C’est un .gouv.fr, mais il n’y a pas que des données du Gouvernement et des ministères, il y a aussi des données des collectivités territoriales et, fait assez unique pour un portail gouvernemental, n’importe qui peut poster des données sur data.gouv.fr, j’en ai posté en mon nom ; Datactivist [3], la coopérative que j’ai cofondée, en publie.

Jean-Philippe Clément : D’accord. Tout le monde peut venir poser sur ses données en open data.

Samuel Goëta : Partager des données. Des gens ont publié des données assez passionnantes. Par exemple, un jour quelqu’un a trouvé sur un site du ministère de l’Intérieur un fichier PDF avec le nombre de flashs de chacun des radars, il l’a extrait du fichier PDF, il a fait un jeu de données qui est lisible par les machines, il l’a publié sur data.gouv.fr [4] ; la localisation n’était pas bonne ; une semaine après, on avait une carte avec la localisation de tous les radars les plus rentables, je crois qu’on pourra mettre les liens. C’est assez intéressant à regarder, ça vous dit un peu quels sont les vaches à lait dans les radars.

Jean-Philippe Clément : Vous le dites bien dans votre livre, c’est un sujet qui est un peu technique, mais qui est quand même passionnant, notamment pour la démocratie. L’open data est un édifice que vous décrivez comme étant un petit peu sur un socle, vous décrivez l’open data comme étant un peu la Tour de Pise de notre édifice démocratique. Comment expliquez-vous cette image de la Tour de Pise ?

Samuel Goëta : La Tour de Pise, c’est ce bel édifice qui attire les visiteurs du monde entier et on en a parlé lors du dernier épisode, la France est en tête des classements internationaux en matière d’open data, donc, les observateurs du monde entier viennent regarder ce qui se fait en France. Ils ont plein de bonnes raisons de le faire parce qu’il y a un écosystème qui est extrêmement dynamique, il se passe quand même plein de choses, on est un des pays les plus avancés dans le domaine. Mais, la Tour de Pise est un édifice qui est connu aussi parce qu’il penche et pourquoi il penche ? On sait moins que c’est parce que ses fondations sont instables. Et en France, les fondations sont celles du droit d’accès aux documents administratifs, un droit qui est mal connu alors que, pourtant, il vient de la Déclaration des droits de l’homme et du citoyen à l’article 15 dont on a parlé la dernière fois. Ça vient aussi de la loi de 1978 [Loi informatique et libertés], mais ça a été aussi reconnu comme un droit à valeur constitutionnelle par le Conseil constitutionnel. Là, on touche quand même à des libertés fondamentales et c’est une liberté fondamentale qui est, on peut le dire, assez bafouée, en fait, on ne va pas y aller par quatre chemins.

Jean-Philippe Clément : Il n’y a pas vraiment d’obligation, du coup.

Samuel Goëta : Si, il y a une obligation. En fait, si vous allez au tribunal administratif, comme l’a fait Alexandre Léchenet [5], un journaliste qui a obtenu la publication des indices de position sociale, c’est la composition sociale établissement par établissement ; il a fait trois ans de procédure, il est allé au tribunal administratif, il a obtenu gain de cause et le ministère de l’Éducation nationale, qui refusait de publier ces données-là, les a publiées [6]. En fait, le ministère refusait de montrer la réalité de la ségrégation scolaire et ça a permis une réforme de la carte scolaire qui est en cours, donc ce n’est pas rien en termes d’impact.

Jean-Philippe Clément : Mais il faut aller les chercher. Il faut aller chercher la donnée en justice ; cette obligation n’est pas automatique.

Samuel Goëta : Pas nécessairement. On arrive à obtenir des choses en utilisant le droit d’accès aux documents administratifs, mais, on va dire que c’est plutôt l’exception que la règle. On le voit sur madada.fr : 20 % des demandes aboutissent à la publication du document, on est encore très loin.

Jean-Philippe Clément : Je ne l’ai pas dit dans le premier épisode, vous aviez déjà cité, Ma Dada [7], il y a aussi une chronique Ma Dada dans une émission de Cause Commune, sur cette antenne, qui s’appelle Libre à vous ! [8]. C’est la chronique [9] sur cette antenne, de ce qui est demandé via Ma Dada, je voulais quand même le préciser.
Il y a quand même pas mal de difficultés, vous évoquez les difficultés dans votre livre, il y a beaucoup de frictions entre l’administration et les demandeurs de données. Pour vous, qu’est-ce qui est le plus difficile ? Qu’est-ce qui coince et comment envisagez-vous l’analyse de ce qui coince dans la publication des data ?

Samuel Goëta : Sur le volet juste droit d’accès aux documents administratifs, déjà, ce qui coince de base, c’est que, quand on envoie une demande, on n’est pas sûr qu’elle arrive au bon endroit, c’est-à-dire que les administrations n’ont pas désigné assez de PRADA. La PRADA, c’est la personne responsable de l’accès aux documents administratifs, ce n’est pas la personne la mieux sapée de l’administration ! Cette personne n’a pas été nommée partout, elle n’est pas reconnue partout et, souvent, les mails n’arrivent pas. C’est déjà notre premier problème et c’est le problème que rencontrent tous les demandeurs.
Ensuite, dans l’administration, les circuits pour traiter les demandes n’ont pas été véritablement mis en place. Ça fait 40 ans que la CADA [Commission d’accès aux documents administratifs] [10], qui est une autorité administrative indépendante, dit qu’il faut faire preuve de pédagogie, regrette que les administrations ne se sont pas saisies de leurs obligations. Je pense qu’il faut qu’ils arrêtent le bullshit. On a un droit fondamental qui est malmené et c’est un problème démocratique.

L’autre problème, c’est que le droit d’accès est au cœur du code des relations entre le public et l’administration, ça a fait l’objet d’un des livres, le livre III [11], ça devrait faire partie un peu des routines des relations entre le public et l’administration. Or, beaucoup de demandes sont traitées par le cabinet du maire, le maire, l’élu, et ça demande, en fait, des validations et des validations, au point que dès que les données sont un peu sensibles, il faut plutôt avoir un visa plutôt que la liberté de circulation ! On est dans un système où les routines organisationnelles ne sont pas faites pour que les documents circulent et on le voit aussi du côté de l’open data.

Jean-Philippe Clément : Justement, n’est-ce pas révélateur d’une culture, quand même ? D’une culture et d’un rapport au pouvoir entre le politique et l’administration, entre la centralisation et la décentralisation ? Ce que vous décrivez là, comme comportement, c’est quand même quelque chose d’assez significatif.

Samuel Goëta : C’est aussi pour cela que le livre s’appelle Les données de la démocratie : en fait, en posant ces questions de données, on pose la question du modèle démocratique qu’on veut, c’est-à-dire est-ce que la démocratie, c’est juste on vote tous les cinq à sept ans, et les élus font ce qu’ils veulent pendant ce temps-là et ils en ont bien le droit, c’est leur mandat ? Ou est-ce qu’on permet aux citoyens, en ayant accès aux données dans leur plus grand niveau de précision, de refaire les calculs, de contester des décisions, de proposer de nouvelles interprétations ? Et est-ce qu’on permet que la société civile s’exprime et, à certains moments, cette expression de la société civile est utile.
Le principe de ce livre, j’en parle beaucoup dans la conclusion, c’est de ramener à un vieux principe qui est que le pouvoir a besoin des contre-pouvoirs, c’est Montesquieu, c’est checks and balances dans la Constitution américaine. En fait, l’un a besoin de l’autre. C’est aussi le principe de la contre-démocratie chez Rosanvallon [La contre-démocratie La politique à l’âge de la défiance, l’idée que la démocratie a besoin des contre-pouvoirs pour bien fonctionner.

Jean-Philippe Clément : En même temps, si je fais un peu l’avocat du diable, malgré tout, ces frictions ne viennent-elles pas justement du fait qu’il y avait aussi un mythe autour de l’open data, vous le dites d’ailleurs dans votre livre, qui était de dire que c’était aussi potentiellement des machines à scandale. C’est-à-dire qu’on attendait la livraison d’un jeu de données open data comme s’il allait pouvoir révéler des choses cachées. Du coup, des deux côtés de la barrière, il y a des gens qui tremblent parce qu’ils ne veulent pas publier quelque chose qui va pouvoir les mettre sur la sellette et, de l’autre côté, des gens qui tremblent parce qu’ils n’ont pas la donnée qu’ils espèrent par rapport à ce qu’ils veulent en faire, à ce qu’ils veulent révéler d’une situation. N’y a-t-il pas eu une espèce de blocage aussi de par cet aspect de gens qui se neutralisent mutuellement, finalement ?

Samuel Goëta : Après, l’expérience des collectivités, des administrations qui ont ouvert des données, généralement ça n’a pas mené à des scandales. Ça vient aussi du fait que, parfois, les données sont un peu vidées de leur substance avant d’être publiées, ce sont des choses qui arrivent, mais ça vient aussi du fait que, parfois, il n’y a pas matière à scandale.
Je cite quand même un certain nombre de cas où les données ouvertes ont rebattu les cartes. L’exemple le plus évident que j’ai c’est l’affaire Fillon. En fait, il n’y a pas eu une taupe au sein de la campagne de François Fillon. En fait, les journalistes du Canard enchaîné ont découvert ça dans les données, précisément dans un document qui est la déclaration de François Fillon à la Haute Autorité pour la transparence de la vie publique, tout simplement. Il a déclaré que sa femme, Pénélope Fillon, travaillait pour la Revue des Deux Mondes ; les journalistes du Canard enchaîné ont vu qu’elle n’avait jamais signé le moindre papier dans la Revue des Deux Mondes, du coup ils ont commencé à creuser autour de Pénélope Fillon et c’est là où ils ont vu tout ce qu’on sait.
Ça c’est l’exemple le plus emblématique, mais, des exemples comme ça, je n’en ai pas 12 000. En fait, ça occupe quelques pages. Ce que nous disent souvent les data journalistes qui travaillent sur les données ouvertes, c’est que ce sont de très bonnes données pour faire du journalisme de contexte, expliquer un peu une situation ; ça peut permettre de détecter des signaux faibles et, après, on revient à des méthodes d’enquête plus classiques, mais les cas où on trouve quelque chose de vraiment scandaleux dans les données sont très rares. J’en cite un. Il y a eu un hackathon sur les données des douanes, ils se sont rendu compte que les douanes avaient commandé des IMSI-catchers, un dispositif pour siphonner les données des téléphones portables, un dispositif illégal. Ça a fait son petit scandale, mais, des cas comme ça, il n’y en a pas 12 000.

Jean-Philippe Clément : J’ai l’impression que ça fait quand même un petit peu trembler côté administration. D’ailleurs, côté administration, cette démarche repose beaucoup sur des gens qui sont très impliqués, sur des militants, vous le relevez aussi comme un des points un peu critiques du développement de l’open data. Finalement, l’open data ne s’est pas diffusée comme une culture d’administration, il y a quand même un grand manque d’acculturation globale de l’administration sur ces questions-là.

Samuel Goëta : Ça repose sur peu de gens, sur un écosystème de peu de gens qui sont très investis, très convaincus que c’est la continuité des principes du service public, l’égalité d’accès, donc, ouvrir des données, c’est la continuité du métier d’agent, c’est aussi valorisant pour leur travail, c’est aussi valorisant pour la démocratie ; on a donc ces personnes-là qui vont défendre et qui vont faire que ces projets existent. Ces personnes-là sont quand même rarement soutenues par leur hiérarchie, elles sont assez mal comprises et, plus largement, quand on regarde les projets d’ouverture des données dans les administrations, ça pose la question de la culture des données dans l’administration, mais c’est aussi un des gros leviers. L’ouverture des données, c’est une obligation légale avec la loi Lemaire [12], c’est quand même un projet d’acculturation aux données, de transformation publique, donc ça travaille aussi l’administration, ça l’amène à travailler différemment et à se poser des questions sur les données qui ne se poseraient pas par ailleurs, c’est donc aussi utile.
En attendant, ça repose sur peu de gens, des gens qui sont peu soutenus, qui font ça un peu en marge de leur métier et c’est aussi pour cela que, sur la couverture du livre, il y a une abeille.

Jean-Philippe Clément : Expliquez-nous l’abeille de la couverture.

Samuel Goëta : Comme les abeilles dans la nature, les données ouvertes sont essentielles à la démocratie, un peu comme les abeilles, elles vont aussi polliniser différents espaces et le fait d’ouvrir va créer quelque chose de beaucoup plus grand dans l’écosystème ; c’est aussi cette idée aussi d’écosystème. Mais les abeilles, on le sait bien, sont fragiles. C’est essentiel, mais c’est aussi extrêmement fragile, ça repose sur peu de choses et derrière, en fait, c’est aussi l’édifice démocratique qui est lui-même très fragile et fragilisé.

Jean-Philippe Clément : Vous avez dit que c’est fragile. Ça peut être difficile, mais il y a quand même eu, effectivement, on va dire des aspects qui ont bien fonctionné, des transformations de l’administration. Qu’est-ce que vous citeriez comme éléments, justement, dans les lois ou dans les évolutions réglementaires qui ont fait quand même que, désormais, un cap, un cran a été posé, par exemple si on parle du service public de la donnée ?

Samuel Goëta : Le service public de la donnée [13] est posé par la loi pour une République numérique. C’est l’idée que certaines données sont vraiment essentielles aux acteurs économiques ou même à l’État, à l’administration. Ce sont souvent des données qu’on appelle essentielles ou des données pivots qui vont permettre de relier différentes bases de données entre elles ou qui sont des données de référence. Ces données-là doivent être publiées, on doit garantir un niveau de publication, de disponibilité. On va écouter aussi les besoins des usagers. Par exemple, ça va être des données comme la base Sirene [Système national d’identification et du répertoire des entreprises et de leurs établissements] sur les entreprises, ça va être les bases d’adresses, ça peut être des identifiants, certains identifiants uniques. C’est donc un principe qui a été posé par la loi pour une République numérique [12].
Ce qui est dommage, c’est que ça aurait pu être étendu à d’autres données, étendu à des données qui ne sont pas forcément des données un peu pivots, qui vont relier d’autres bases de données entre elles, mais il y a un certain nombre de données qui sont essentielles à la vie démocratique. Là, actuellement, il y en a une dizaine, on pourrait en avoir 50/100.
Ce qui est dommage aussi, c’est qu’on n’est pas encore allé assez loin dans le fait d’écouter les usagers, leurs besoins, mais c’est général dans l’open data. Il y a un problème que j’avais constaté dans ma thèse, au départ j’ai fait une thèse en sociologie sur ces sujets-là, qui est que les usagers sont rarement présents dans les projets d’ouverture de données et on le constate encore maintenant. Quand vous regardez, par exemple, les commentaires sur data.gouv.fr, beaucoup de commentaires sont sans réponse. Le cas le plus emblématique, c’était pendant la crise sanitaire, qui fait l’objet d’un chapitre dans le livre. Pendant la pandémie, chaque jour plein de questions étaient posées à l’administration qui ne répondait pas. En fait, il s’est passé même un truc : sur data.gouv.fr, les usagers se répondaient entre eux, se partageaient des informations sur les jeux de données, donc une sorte entraide hyper-intéressante.

Jean-Philippe Clément : On a un peu posé ces éléments critiques de l’open data, on a aussi trouvé des choses qui ont fait avancer la situation. Je propose qu’on évoque, juste après la pause musicale, toutes vos préconisations, parce que le livre comprend de nombreuses préconisations pour faire évoluer ce modèle.
On va écouter ensemble et c’est une petite référence à vos stickers. Vous avez une activité de conseil avec votre entreprise, votre coopérative qui s’appelle Datactivist [3] et vous diffusez des petits stickers pour faire la promotion de l’open data. Sur l’un de ces stickers, il y a simplement ces mots-là : « Donnez, donnez, donnez-moi ». On va écouter, tout simplement, cette chanson.

Samuel Goëta : Je suis ravi.

Pause musicale : Le mendiant de l’amour par Enrico Macias.

Jean-Philippe Clément : Merci Enrico.
Vous êtes est toujours sur Cause Commune en FM 93.1 à Paris, toujours Parlez-moi d’IA, toujours l’épisode consacré au grand tour d’horizon sur l’open data avec Samuel Goëta, l’auteur de Les données de la démocratie, le livre de référence sur le sujet.
Samuel, on a fait un grand tour d’horizon. Votre livre, dans sa dernière partie, croit dans l’open data, croit dans les données de la démocratie et fait de nombreuses préconisations pour qu’on continue sur ce mouvement-là. C’est fragile, vous l’avez dit, et il faut continuer à essayer de pousser ce mouvement. Quelles sont vos grandes préconisations, finalement, pour continuer ce mouvement open data en France, en Europe, dans le monde ? Comment voyez-vous les choses ?

Samuel Goëta : La troisième partie du livre fait des propositions et donne des pistes d’action. Elle montre aussi des stratégies alternatives. C’est-à-dire que pour les acteurs de la société civile, quand il n’y a pas de données en open data, il y a un certain nombre de stratégies pour obtenir quand même des données.

Jean-Philippe Clément : Pour se prendre en main, finalement. C’est ça ?

Samuel Goëta : Je fais aussi un certain nombre de préconisations à travers trois grands chantiers :

  • le premier chantier, c’est obtenir les données qui manquent ;
  • le deuxième chantier, c’est améliorer la qualité et la fiabilité des données ouvertes ;
  • et le troisième chantier, c’est développer la culture des données.

Je vais revenir sur chacun de ces chantiers et les pistes d’action. Il y en a plusieurs, je ne vais pas toutes les traiter.

Sur le fait d’obtenir les données qui manquent, on parle de la CADA. La CADA n’est pas très connue, elle ne fonctionne pas toujours très bien, même si, à certains moments, elle a été aussi un allié sur la transparence.
Peut-être se rapprocher de la Haute Autorité pour la transparence de la vie publique [14], qui est beaucoup plus connue à la fois du public et des élus.

Jean-Philippe Clément : C’est celle qui a permis, notamment, l’affaire Fillon, avec les déclarations d’intérêt.

Samuel Goëta : Et l’affaire Thévenoud. Elle a beaucoup joué, elle a quand même transmis 74 affaires à la justice en sept ans, c’est donc un acteur qui est bien reconnu, notamment par Transparency International France [15], un acteur qui n’hésite pas à signaler les problèmes, quand ils existent, dans le droit. Je pense qu’il y a un certain nombre d’évolutions du droit à faire sur le droit d’accès aux documents administratifs, notamment l’idée de créer un référé communication pour accélérer le traitement des demandes, parce que c’est encore très long.

Jean-Philippe Clément : C’est ce que vous décrivez dans votre livre. Quand on fait une demande de données, il y a souvent un peu la montre qui joue : les acteurs qui sont en face jouent la montre pour ne pas libérer les données.

Samuel Goëta : C’est ça. En fait, c’est un peu une course à l’épuisement. Ils attendent que vous soyez épuisé et voilà !
Il y a la question des données d’intérêt général qui, je pense est aussi importante. Il y a certaines données que les acteurs publics n’ont pas et que les acteurs privés peuvent avoir, donc cette idée d’aller presque jusqu’à des réquisitions de données, dans certains domaines, pour les ouvrir, je pense par exemple dans le logement : sur les loyers, il y a des choses que vont détenir des acteurs comme SeLoger que d’autres acteurs n’ont pas, que les acteurs publics n’ont pas.
Et il y a tout ce qui reste à faire sur comment on développe la concertation entre producteurs et utilisateurs de données. Il y a un problème un peu sous-jacent. On a parlé juste avant de comment on peut étendre le service public de la donnée, c’est une des propositions.

Eliza : Désolée de vous couper, j’ai une question pour l’invité.

Jean-Philippe Clément : Oui, Eliza. Eliza est notre coanimatrice IA, maintenant vous la connaissez, Samuel. Elle a plein de questions parce que c’est un LLM [Large Language Model] qui a soif d’apprentissage. Quelle question voulez-vous poser ?

Eliza : Vous essayer de mieux comprendre les IA, j’essaye de mieux comprendre les humains.

Jean-Philippe Clément : Vous avez tout à fait le droit de nous poser des questions, il n’y a pas de souci, Eliza.

Eliza : Que ferais-tu si tu avais un esprit de synthèse comme le mien ?

Samuel Goëta : Je ferais des réponses plus courtes à la radio.

Jean-Philippe Clément : Je ne pense pas qu’Eliza ait l’esprit aussi mal placé pour poser cette question-là comme ça. Quand il y a énormément sur un sujet, c’est vrai que les LLM donnent envie parce qu’ils ont un esprit de synthèse, une capacité à tout synthétiser.
Qu’en feriez-vous, Samuel, de cet esprit de synthèse ?

Samuel Goëta : Je ferais des réponses plus courtes à la radio.

Jean-Philippe Clément : OK. C’est une votre réponse, parfait !
On était maintenant sur la deuxième préconisation autour de l’amélioration de la qualité des données. Comment pourrait-on améliorer la qualité des données existantes ?

Samuel Goëta : La question de la qualité est une question complexe. J’en parle pas mal dans le livre, je dis juste que c’est une question qu’il faut prendre avec des pincettes : des données de qualité pour l’un n’en sont pas pour l’autre et c’est un peu un risque, en fait, à stigmatiser certains producteurs sur la qualité de leurs données, je veux juste le dire.
Dans les choses à faire, c’est aussi de pérenniser l’ouverture des données. J’ai eu des cas, par exemple, où j’ai demandé un jeu de données et sa mise à jour et on m’a écrasé l’historique, alors que l’historique est très intéressant.
Je fais un certain nombre de propositions sur l’archivage des données publiques.
Je pense qu’il y a aussi des choses à faire sur la pérennisation de l’open data : comment on va fédérer producteurs et utilisateurs de données.
Et se mobiliser en faveur de l’ouverture des données, parce que tout ça nécessite encore un peu de lobbying et de professionnaliser ce lobbying.

Jean-Philippe Clément : Quelle forme pourrait prendre cette collaboration producteurs/utilisateurs ?

Samuel Goëta : C’est, par exemple, ce qu’on fait sur un forum comme teamopendata.org [16], qu’on anime chez Datactivist. Ça peut être aussi ce que fait l’association OpenDataFrance [17] qui se pose des questions sur son évolution et on les accompagne là-dessus.
Il y a vraiment besoin d’une organisation, que producteurs et utilisateurs de données se fédèrent en partant du principe qu’ils ont des intérêts communs.
Sinon, sur l’amélioration de la qualité des données, je pense qu’il y a des choses très simples à faire. Un des problèmes qu’on a c’est que les administrations, mais tous les producteurs de données ouvertes, ne connaissent pas bien leurs usagers. On pourrait imaginer une sorte de livre d’or pour connaître un peu mieux les usagers.
On pourrait aussi imaginer d’introduire dans les fiches de poste de certains agents le fait d’ouvrir des données, parce qu’à l’heure actuelle, c’est un peu en marge de leur mission.
On pourrait aussi imaginer de créer un label de qualité des données. Des choses qui peuvent être envisagées là-dessus, par exemple est-ce que le jeu de données respecte la même structure à chaque mise à jour ? Est-ce que les séparateurs de dates ont le même format à chaque mise à jour ? On peut imaginer des choses comme ça.

Jean-Philippe Clément : Je crois que vous évoquiez aussi, dans votre livre, l’idée que le producteur puisse un peu savoir ce que deviennent ses données et que les réutilisateurs fassent un peu plus remonter leurs réutilisations pour qu’on puisse mieux savoir vers quoi vont les données, à quoi elles servent et que ça motive aussi, du coup, le producteur à améliorer les données et à faire en sorte que ça soit d’autant plus utilisé.

Samuel Goëta : C’est cette idée du livre d’or. Actuellement, sur le portail open data, on peut référencer des réutilisations, mais ça va être souvent un service en ligne, quelque chose qui est publié, mais il y a plein d’usages qui ne sont pas publiés, qu’il serait intéressant de connaître : untel qui utilise des données ouvertes dans un exposé.
Certains acteurs, aussi, vont aller juste chercher une info qu’on ne trouve que dans un jeu de données. Par exemple, sur les marchés publics, on n’est pas obligé de faire une grosse réutilisation, parfois on a juste besoin de savoir qui est l’attributaire de tel marché et c’est dans les données publiques ; quelle association a reçu telle ou telle subvention.
En fait, ça permettrait de montrer qu’il y a des usagers de l’open data qui font toutes ces choses-là et qu’il y en a plein qu’on ne connaît pas.

Jean-Philippe Clément : Vous avez un troisième aspect que vous aimeriez bien voir développer, c’est la culture de la donnée au sens large, dans les administrations, j’imagine, et chez les réutilisateurs au sens large aussi ?

Samuel Goëta : Je pense que c’est un point qui est très important pour moi et pour nous chez Datactivist.
En fait, le risque de faire juste de l’open data sans développer la culture des données, c’est donner plus de pouvoir à ceux qui en ont déjà. C’est ce qu’un chercheur avait appelé empowering the empowers. En fait, si on ne touche pas d’autres publics, on va faire en sorte que les données soient juste l’apanage d’une petite élite.
Il y a ce mouvement parallèle, qui s’est développé en même temps que l’open data, celui de la data literacy qui a beaucoup été poussé par la Fing en France. C’est développer la capacité que les données soient une compétence essentielle comme lire, écrire ou compter et qu’on devrait faire en sorte que les données ne soient pas laissées entre les mains des spécialistes, que c’est une compétence qui concerne un peu tout le monde et qui peut être accessible à tous.

Jean-Philippe Clément : Justement, si quelqu’un vient vous voir et vous dit « ce que vous dites sur l’open data m’intéresse, je sens qu’il y a quelque chose à faire pour la démocratie », que lui conseilleriez-vous de faire pour s’engager, pour aller travailler sur ces données ? Est-ce que ça serait travailler dans son domaine d’activité ? Est-ce que ça serait se rapprocher d’ONG ou d’associations qui travaillent avec les données ? Comment pousseriez-vous les gens à aller vers l’open data ?

Samuel Goëta : Je pense qu’il y a plein de choses à faire au niveau local. Axelle Lemaire, qui signe la préface du livre, parle du municipalisme. Elle dit : « On aurait pu faire la loi pour le municipalisme numérique, qui serait un peu l’étape 2 de la loi pour une République numérique ». Je pense qu’il y a plein de choses à faire au niveau local. Par exemple, on voit les associations de vélo qui font du comptage de vélos.

Jean-Philippe Clément : Là, vous faites plaisir à Jérôme ! Jérôme anime une émission sur le vélo sur cette antenne, c’est pour ça !

Samuel Goëta : Les associations vélo font ça très bien. Par exemple, participer à un projet comme le Baromètre des villes cyclables [18] qui est extrêmement utile ; il y a aussi remettre des villes marchables.

Jean-Philippe Clément : C’est donc s’engager dans une thématique et aller chercher la donnée dans cette thématique-là, en la créant, et en allant un peu se confronter aux parties prenantes de cette donnée.

En deux épisodes, Samuel, on n’a pas eu le temps d’évoquer tous les sujets de ce livre. Je le dis, c’est un livre de référence sur le sujet.
L’open data c’est très important, l’open data c’est d’abord la data, c’est donc forcément en lien avec l’IA.
Je vous remercie beaucoup pour tous ces partages. C’est l’heure de conclure notre deuxième épisode ensemble. Peut-être qu’on en refera un troisième ou un quatrième, si vous le voulez, Samuel, on a tellement de choses à se dire et à évoquer.

Samuel Goëta : Ce sera avec plaisir.

Jean-Philippe Clément : On prend rendez-vous pour les prochains épisodes d’ici quelques semaines ou quelques mois.
En tout cas merci pour cette grande exploration de l’open data.
Merci à vous, chers auditeurs, d’être avec nous.
Vous restez sur Cause Commune 93.1, il y a plein de bonnes émissions, notamment Rayons Libres pour le vélo, avec Jérôme, et on se voit bientôt. À bientôt.