Webinaire : Etalab – 10 ans d’open data, premiers retours et pistes pour la décennie à venir - Simon Chignard

Emmanuel Arrechea : Bonjour à tous. Merci à ceux qui ont fait l’effort de suivre ce webinaire d’être venus à l’heure. C’est dans le cadre, bien sûr, des Rencontres numériques 2021 que nous organisons ici en Pays basque.
Ce webinaire est un peu spécial parce que, pour tout vous dire, en 2011 on avait déjà invité Simon, ça se passait à Anglet, c’était en présentiel à l’époque, c’était l’autre monde et ça parlait déjà d’open data. Ça fait maintenant deux/trois ans qu’à L’Antic [1], une agence développement numérique, on accompagne les collectivités pour les aider à appréhender cette thématique de l’open data. Simon, avant, travaillait à La Cantine de Rennes, depuis a intégré Etalab [2], l’institution qui gère le portail data.gouv.fr [3], et on se disait dix ans après, quasiment jour pour jour, c’est l’occasion de faire un petit point et pourquoi pas également de regarder un peu derrière dans le rétro mais aussi de regarder devant.
Simon, merci beaucoup d’avoir accepté notre invitation. Je te laisse la parole.

Simon Chignard : Très bien. Merci à vous pour l’invitation.
Effectivement, c’est avec grand plaisir que je reviens dix ans après pour échanger à nouveau, pour plein de raisons, ne serait-ce que parce que cette année on fête aussi les dix ans de la mission Etalab puisque que ça fait dix que Etalab a été créée, elle a connu plein de péripéties, on est toujours au sein du gouvernement, des services du Premier ministre, on a eu pas mal de rattachements un peu différents, maintenant on est au sein de la Direction interministérielle du numérique [4].
Ce que je voulais vous proposer en une demi-heure/trois quarts d’heure ensemble, c’était qu’on regarde un peu, qu’on essaye de faire un bilan critique 2011/2021, qu’est-ce qui s’est passé entre les deux. Si on fait deux photos, j’en prends une il y a dix ans, j’en prends une maintenant, qu’est-ce qui a changé ?, à part le fait qu’il y a dix ans j’avais un petit peu plus de cheveux, qu’est-ce qui s’est passé entre les deux ? Et puis, en fin de discussion, je voudrais essayer de vous proposer un peu quelques éléments de projection, voir un peu vers quoi ça pourrait aller, qu’elles pourraient être les pistes pour les quelques prochaines années qui viennent et pourquoi pas aussi pour les dix ans à venir.
Je n’ai pas de transparents, mais j’ai repris quelques éléments qui me semblaient intéressants par rapport à faire une photo il y a dix ans et maintenant.

Ça c’est juste pour la petite histoire. Effectivement, je suis venu à Anglet le 27 octobre 2011, à l’époque j’étais l’un des administrateurs de La Cantine numérique de Rennes qui est une structure qui, depuis, a été absorbée, qui est devenue Le Poool [5] qui a été entre-temps la French Tech, peu importe à la rigueur. En 2011 c’est l’époque où Rennes, et c’est ce que j’étais venu raconter chez vous, fait partie des territoires un peu pionniers en France en matière d’ouverture des données publiques. C’est vrai qu’en 2011 on peut qualifier ça, je ne sais pas comment le dire autrement, mais pour moi c’est le temps des pionniers avec tout ce que ça implique.
Dans ces pionniers à l’époque il y a pas mal de gens, il y a quelques villes en France, on pourrait parler de Paris, mais c’est le côté le chauvin, breton qui va parler d’abord, c’est plutôt d’abord à Rennes que ça s’est passé avant de se passer à Paris, il y avait des choses à Montpellier et autres, mais il y avait aussi quelque chose d’extrêmement important à l’époque, c’était une association qui était basée à Nantes, qui s’appelait LiberTIC [6], dont certains d’entre vous se souviennent et de la fondatrice de LiberTIC, Claire Gallon, et Claire et ses collègues publiaient à l’époque plusieurs fois, deux fois par an minimum je crois, la carte de France de l’open data. Donc c’est un peu un petit clin d’œil à ce qu’est l’open data il y a dix ans. Donc l’open data en France il y a dix ans c’est ça. Qu’est-ce que ça veut dire ça ? On voit quelques territoires en vert, c’est ce qui est déjà ouvert, en bleu c’est ce qui est en cours, en tout cas à l’époque, et puis en gris c’est ceux qui sont en réflexion. Ce qu’on voit à cette époque-là c’est que, finalement, le territoire est encore assez disparate. On voit des initiatives à Rennes, à Paris, à Montpellier, à Bordeaux, on voit la région Aquitaine à l’époque, puisqu’on est encore avant les fusions des régions qui sont intervenues après, et on voit aussi des mouvements, comme ça, un petit peu citoyens, à Toulouse, à Lille, à Nantes, à Dijon et puis on voit, j’allais dire, cette carte de France peu à peu se colorer, changer un petit peu de couleur. Ça, pour moi, c’est vraiment l’époque des pionniers.
Un autre point intéressant c’est que vous voyez marqué en haut de l’image « Plateforme nationale data.gouv.fr en cours » puisque, effectivement, à l’époque où est fait cette carte, en juin 2011, on n’a pas encore eu le lancement de la plateforme nationale data.gouv.fr qui a été lancée peu après.
Ça c’est la photo en 2011, j’allais dire que c’est le temps des pionniers pour moi au sens où c’est le temps où des collectivités, des collectifs citoyens, se lancent de manière assez volontariste, essayent de lancer un petit peu les choses et puis de bricoler, en fait, puisqu’il faut bien appeler un chat un chat. À l’époque il n’y a pas de textes juridiques très clairs sur le sujet, il n’y a pas forcément de pratiques encore très bien définies, il n’y a pas toujours de standards de données, il n’y a pas toujours de licences qui encadreraient les réutilisations. On a beaucoup de débats à cette époque-là sur la question des licences. Ça c’est la photo en 2011.

Et puis de 2011, si j’avance dix ans après – après on reviendra sur ce qui s’est passé entre les deux, LiberTIC ne publie plus ces cartes-là, d’ailleurs la carte serait beaucoup plus compliquée à comprendre si on la refaisait maintenant –, par contre vous avez des données très intéressantes qui sont publiées par l’Observatoire opendata des territoires. C’est un programme qui est réalisé par l’association OpenDataFrance [7], qui fait notamment un petit peu ce travail-là extrêmement précis, extrêmement détaillé.
Ce qu’on voit en juillet 2021, donc le dernier comptage on va dire, on a à peu près 600 collectivités, un petit moins de 600 collectivités en France qui ont ouvert les données, 15 régions sur les 15, je crois, que compte la France métropolitaine, une grande partie des départements, une partie importante aussi des EPCI [Établissements publics de coopération intercommunale] et puis quelques communes, sachant que, effectivement, ça va dépendre si l’on va regarder le verre à moitié plein ou à moitié vide – c’est vrai qu’entre-temps est passée la loi pour une République numérique que j’aurai l’occasion de vous présenter juste après. On voit finalement qu’il y a eu une progression et, selon ces mêmes données de l’association OpenDataFrance, 50 % de la population française, en juin 2021, est en capacité d’accéder à des données locales.
Quand on dit des données locales, quand on prend 50 %, ça ne veut pas dire qu’il y a 50 % des Français qui n’ont accès à aucune donnée concernant leur territoire. Ce n’est pas vrai. Typiquement l’INSEE publie, au niveau national, des données avec une maille, une finesse, y compris locales, au niveau de votre commune. Finalement c’est 100 % des Français qui ont accès à des données concernant leur territoire. Par contre, 50 % d’entre eux peuvent accéder à des données qui sont produites localement, j’allais dire qui sont véritablement de la donnée locale.
Ça c’est le premier point. Je ne sais pas comment qualifier, autant je disais 2011 c’est le temps des pionniers, est-ce que 2021 c’est l’époque de la maturité, de la normalisation ? Il y a peut-être plein de termes à trouver un petit peu, mais on voit quand même bien qu’on a vraiment changé d’échelle.

L’autre point qui me semble important à souligner aussi c’est qu’on a changé d’échelle en termes de compréhension du sujet open data. Pourquoi je vous dis ça ? Hier même ont été publiées les dernières données, le dernier baromètre du numérique, c’est un travail que fait le gouvernement chaque année, un travail qui est confié à une société d’études qui s’appelle le CRÉDOC et, chaque année, le CRÉDOC interroge les Français sur les usages du numérique. Il s’avère que cette année c’est intéressant parce qu‘il y a des questions spécifiquement sur l’open data. C’est tout frais, ça date d’hier et, d’après les données du Baromètre du numérique édition 2021 [8] source enquête du CRÉDOC, quand on pose la question aux Français à propos des données publiques ouvertes à tous en open data qui sont accessibles sur des sites publics, avec quelques exemples – le prix de l’immobilier par quartier, les résultats des contrôles d’hygiène dans les restaurants, les données détaillées sur l’épidémie de coronavirus – diriez-vous que vous les avez déjà consultées, vous savez que ça existe mais que vous ne les avez pas consultées, vous ne connaissez pas ces données ou vous ne savez pas, vous ne répondez pas à la question. On a constaté qu’il y a un quart des Français qui déclarent, selon cette enquête, avoir déjà consulté des données en open data et 30 % d’entre eux disent qu’ils savent que ça existe même s’ils ne les ont jamais consultées. Par rapport à la situation d’il y a dix ans, je suis sûr que si la même enquête avait été faite il y a dix ans, on aurait eu 0,2 % des Français qui auraient dit « j’en ai déjà consultées » et peut-être à peine 0,6 % qui auraient dit « je sais que ça existe même si je ne les ai jamais consultées. » Je pense que c’est quand même un point hyper-intéressant de voir que c’est finalement rentré dans les usages du numérique même si, bien sûr, ça reste encore des usages qui ne sont pas généralisés à tous les types de public.

Pourquoi ? Qu’est-ce qui s’est passé un peu entre les deux et comment peut-on expliquer aujourd’hui ce relatif engouement, on va dire, pour les données ouvertes ?

Le premier point. Entre 2011 et 2021 il y a eu une date un peu importante, je crois, qui est 2016 avec le vote au Parlement, à l’Assemblée nationale et au Sénat, de la loi pour une République numérique [9]. Pour moi c’est un moment important dans le mouvement open data en France pour plein de raisons. C’est un moment intéressant aussi parce que c’est l’une des rares lois, je crois que c’est même quasiment la seule lors du quinquennat précédent, qui a été votée à l’unanimité à l’Assemblée nationale et au Sénat, donc ça a fait vraiment un consensus au niveau de la classe politique sur ces questions d’ouverture des données.
La loi pour une République numérique a fait de l’ouverture des données le principe par défaut, l’ouverture par principe ou par défaut ça dépend de comment vous voulez voir les choses. Ce que je veux dire par là c’est que, auparavant, en 2011, on était dans le temps des pionniers, c’est-à-dire ceux qui y allaient étaient vraiment volontaristes. Depuis 2016 tout le monde est censé y aller. Les résultats de l’Observatoire opendata des territoires [10] par OpenDataFrance, que je vous montrais tout à l’heure, montrent notamment que pour les collectivités de plus petite taille ce n’est pas encore ça, très clairement il y a encore un gros enjeu d’accompagnement, il y a encore de très gros enjeux pour essayer de faire en sorte que les choses se fassent. Donc ça c’est, j’allais dire, un premier point.

Il y a un autre élément, à mon avis, qui explique un petit peu pourquoi les choses se sont développées, pourquoi on a constaté une accélération.
Quand je disais tout à l’heure 2021 c’est l’époque de la maturité, juste pour vous donner quelques exemples. Ça c’est le portail data-gouv.fr, c’est la plateforme ouverte des données publiques françaises, c‘est le portail qu’on gère chez Etalab, qui est alimenté, c’est intéressant, par plein de données aussi bien d’acteurs publics, quelques acteurs entreprises ou associatifs, mais surtout il y a beaucoup de données qui viennent des collectivités elles-mêmes. Quand on dit que c’est la plateforme nationale, ce n’est pas la plateforme que de l’État, c’est la plateforme de l’État, des administrations, des ministères, des administrations déconcentrées, il y a vraiment énormément de choses.
Nous avons constaté deux moments importants qui ont accéléré l’usage des données.
Le premier moment a été l’ouverture des données de transaction immobilière, ce qu’on appelle les demandes de valeurs foncières. Je ne sais pas si vous connaissez ces demandes, ce fichier de demandes de valeurs foncières en tout cas, si vous ne le connaissez pas, je vous en montre juste un petit exemple, une petite illustration. Ça c’est la petite application très simple qu’a développée Etalab qui permet d’accéder aux données, de les visualiser.
Qu’est-ce qu’on a dans ce fichier ? Je vais aller dans le département des Pyrénées-Atlantiques, je vais retourner à Anglet dix ans après et, sur le territoire d’Anglet je vais un peu zoomer, par exemple je vais prendre cette parcelle-là, cette parcelle cadastrale, et à l’intérieur de la parcelle cadastrale je vais pouvoir voir l’ensemble des transactions immobilières. Par exemple, je suis capable de voir qu’au 11 bis allée de la Grande Dune à Anglet, le 12 avril 2016, a été vendue pour 562 000 euros une maison de cinq pièces avec 1000 m² de sol. Donc on a là, pour moi, quelque chose d’extrêmement important à plusieurs niveaux.
Le premier point c’est qu’on commence à avoir des données et, à mon avis, les données de demandes de valeurs foncières l’illustrent bien, qui ont très grosse valeur d’usage. C’est-à-dire que concrètement ces données-là sont utiles aussi bien quand vous voulez vendre votre maison que quand vous voulez en acheter une ; elles sont utiles aux communes pour être capables de voir la variation du prix du foncier ; elles sont utiles pour des aménageurs urbains ; elles sont utiles et elles sont très réutilisées, on le sait, par les notaires, par les agences immobilières ou autres. Donc on a vraiment des données qui ont une très forte valeur et ça, on ne l’avait pas il y a dix ans. Très clairement les données qu’on avait il y a dix ans, c’était par exemple les horaires de bus, des données sur la natalité qui, encore une fois, sont aussi des données intéressantes, mais on n’a pas la même création de valeur avec ces données-là que celles qu’on peut avoir avec cet exemple-là de demandes de valeurs foncières.

Autre point, à mon avis important, représenté par ces données-là, c’est que là on rentre un peu dans le dur, j’allais dire, parce qu’on a des données qui se rapportent à une transaction particulière. C’est là où ça devient intéressant. Historiquement, en France mais aussi en Europe, on a toujours eu la question de l’équilibre entre les données publiques et la protection de la vie privée des individus. Contrairement à l’approche anglo-saxonne, en Europe on a toujours plutôt privilégié la protection de la vie privée des individus versus le droit d’accès à l’information. Tout ce que je vous montre là est parfaitement légal et encadré, un avis rendu par la CNIL a permis l’ouverture de ces données-là, a permis leur diffusion. Très clairement, si moi je suis votre voisin et que vous habitez au 11 bis allée de la Grande Dune, je suis capable de savoir que vous avez payé 562 000 euros pour acheter la maison que vous occupez aujourd’hui. Donc très clairement on voit que ça met en œuvre aussi un petit peu les tensions qu’il peut y avoir et je trouve que cet exemple-là est assez intéressant à ce titre-là.

La deuxième illustration, on va dire un petit peu la généralisation qui peut d’ailleurs expliquer en partie pourquoi on a ce sondage qui nous dit qu’un quart des Français, quasiment plus d’un quart des Français disent qu’ils ont déjà consulté des données en open data, c’est bien sûr, et malheureusement, la crise sanitaire. Très clairement ça a eu un effet de développement très fort à la fois en matière d’offre de données, mais aussi, bien sûr, en matière de réutilisation et d’avoir un nombre de gens beaucoup plus important qui consultent les données.
Juste pour vous montrer en matière d’offre de données déjà.
Sur data.gouv.fr, on accueille, on héberge plein de données relatives à la crise de la Covid-19. Il y a bien sûr des données sanitaires, des données sur les hospitalisations, des données sur les tests, des données maintenant aussi sur la campagne de vaccination. Donc vous trouvez plein de choses, par exemple les données de vaccination par lieu de vaccination, les lieux de vaccination, la liste des lieux et compagnie. Peut-être pas plus intéressant mais qu’on imagine spontanément peut-être un petit peu moins, aussi des données économiques. On a plein de données autour de l’activité partielle. Vous savez que l’État a mené des actions d’envergure en faveur du soutien de l’activité économique pour des secteurs comme l’hôtellerie ou la restauration et là vous pouvez voir vraiment des données précises, département par département, sur quelles ont été les mesures exceptionnelles qui ont été prises pour tel secteur d’activité dans votre département, vous aurez ces données-là.
Et puis on retrouve plein d’autres choses. Ce que je voulais juste vous montrer, qui me semble intéressant, c’est que dans cette affaire-là de la Covid-19, il y a plein de gens qui ont pu produire des données. Par exemple il y a des mesures de politique publique territoriale, il y a des collectivités, la ville d’Issy-les-Moulineaux, par exemple, a publié la liste des commerces ouverts pendant les différentes périodes de confinement ; Marseille a publié la liste des écoles, pendant le confinement il y avait des regroupements d’écoles, donc ils ont publié aussi ces données-là derrière ; la ville de Toulouse a permis à des commerçants, à des restaurateurs, d’occuper le domaine public, d’installer des terrasses pendant la réouverture. Tout ça fait aussi partie de la politique d’ouverture de données. Donc on voit un petit peu, avec tous ces exemples-là, l’idée que ce n’est pas simplement l’État qui produise des données, mais que les territoires aussi puissent le faire.
Et puis bien sûr, si on parle d’open data et de données ouvertes, il y a quand même un exemple, à mon avis, qui est tout à fait représentatif, c’est CovidTracker, le site dont le fondateur, Guillaume Rozier, connaît une popularité largement méritée puisque, en l’occurrence – d’ailleurs si vous avez déjà eu l’occasion d’écouter des interviews avec Guillaume Rozier [11], il le dit de manière assez nette – CovidTracker, ce site qui permet de suivre la progression de l’épidémie en tout point du territoire, n’est alimenté finalement que grâce à l’open data. S’il n’y avait pas de données ouvertes, en l’occurrence des données publiées sur data.gouv.fr par Santé publique France, il n’y a pas de réutilisation possible ; sans données ouvertes il n’y a pas de CovidTracker. Donc on voit bien cette dynamique d’avoir des réutilisations.
Et puis CovidTracker, pour moi, c’est aussi un très bon exemple de questionnement, de se dire finalement est-ce que ça aurait été à l’État de faire ça ?, se poser la question. Il y a plein de gens, vous l’avez bien vu dans les discours autour de la gestion de la crise sanitaire, qui disaient CovidTracker c’est super, mais c’était au gouvernement de faire ce système, ç’aurait dû être fait par le gouvernement, il n’y avait pas de raison que ce soit fait par des tiers. Oui et non. Si vous allez sur le site data.gouv.fr, vous trouverez bien aussi un peu ces éléments-là qui existent, puisqu’il y a bien aussi des tableaux de bord qui sont développés de ce point de vue-là.

Je vais arrêter le partage d’écran juste quelques secondes.
Tout ça pour vous dire que je pense qu’on est quand même passé d’une situation d’un temps des pionniers il y a dix ans à une vraie phase un peu de maturité aujourd’hui.

Si je me retourne sur les dix dernières années, que j’essaye de faire un bilan provisoire, que je fais deux colonnes les plus et les moins, on va le faire très rapidement ensemble, je pense que c’est intéressant aussi.

On va d’abord être plutôt optimistes, je commence déjà par les points positifs. J’en vois plusieurs.
Le premier point positif peut-être de tout ce mouvement d’ouverture des données, c’est que la donnée est devenue un sujet et, finalement, il y a dix ans ce n’était pas gagné, notamment dans les collectivités territoriales, de faire comprendre que la donnée c’est un sujet. L’idée c’est que la donnée ce n’est pas simplement ce qu’il y a dans une base de données ; la donnée ce n’est pas qu’une question d’informaticiens ou de géomaticiens qui construisent des systèmes d’information géographiques ; la donnée c’est peut-être plus large ça concerne plus de gens.
Le premier point c’est peut-être de se dire que la data c’est un sujet et je pense que c’est vraiment quelque chose qu’on peut mettre au crédit de ce mouvement de l’ouverture des données publiques.
Le deuxième point, peut-être un peu positif aussi, c’est qu’on voit qu’il y a une dynamique de réutilisation. C’est-à-dire que, encore une fois, il y a quelques données qui sont très massivement réutilisées. Je vous ai présenté l’exemple des demandes de valeurs foncières, les données des prix des transactions immobilières, on a vu les données sur l’épidémie de Coronavirus, les données relatives à l’activité économique, la base Sirene [12], par exemple, est très utilisée aussi, donc il y a une dynamique de réutilisation qui est réelle. Il est vrai aussi, et ça ce serait peut-être à mettre dans la deuxième colonne avec les moins, que cette dynamique est concentrée sur quelques jeux de données ; on voit bien que ça se concentre sur quelques jeux de données et pas sur l’intégralité de l’offre de données disponibles.
Troisième point, peut-être toujours à mettre du côté des points positifs, j’allais dire cocorico pour le troisième point puisque la France figure dans le top trois du classement mondial en matière d’open data. Je le dis d’autant plus volontiers que c’est quand même plutôt rare que, sur les questions numériques, la France soit aussi bien classée. Deux exemples récents : un classement de l’OCDE, sorti cette année, qui plaçait la France deuxième au niveau mondial après la Corée du Sud ou un autre classement, européen celui-ci, qui mettait la France troisième après l’Irlande et l’Espagne. Donc on voit vraiment que c’est une thématique sur laquelle notre pays est quand même, pour le coup, plutôt bien positionné.
C’est un peu rapide, mais c’est la partie positive des deux colonnes du bilan provisoire.

Après, la question peut-être un peu négative ou plutôt, sans se dire est-ce qu’il y a des impacts très négatifs, ce qu’on peut faire comme bilan. Pour moi il y a peut-être trois choses qui m’interpellent aujourd’hui.
Le premier point c’est la question de l’élargissement des publics. C’est-à-dire que très clairement on voit qu’il y a aujourd’hui un public pour l’open data. Dans cette enquête, pardon de le redire encore une fois, mais 27 % des Français qui disent avoir déjà consulté des données en open data, ça fait beaucoup de monde. Les chiffres de fréquentation qu’on a vus sur data.gouv.fr depuis le confinement de mars 2020 ont explosé et, très clairement, on a aujourd’hui des mois où on a plus de visites qu’il n’y en avait en une année il y a encore dix ans ; quand je dis un mois pour une année c’est même beaucoup plus que ça, ça peut être une semaine pour une année d’il y a dix ans. Donc beaucoup plus de monde qui se connecte. Par contre, quand je dis qu’il y a plus de public, ça ne dit pas la question « des publics » au pluriel au sens où, et là l’enquête du CRÉDOC, le Baromètre du numérique qui est sorti hier le montre aussi, ça reste encore majoritairement, comme toujours sur les questions un peu numériques, plutôt des gens assez éduqués, plutôt urbains et plutôt des hommes. Donc très clairement il y a un vrai sujet, je crois, d’élargissement des publics, d’arriver à aller parler aussi à d’autres publics et que d’autres publics s’emparent de ces questions. On ne va pas faire de chacun d’entre nous des data scientists, moi-même je ne suis pas data scientist, je suis capable de faire deux trois bidouilles sur un tableur mais ne me demandez pas de construire des modèles prédictifs, je ne saurais pas faire, ça n’empêche qu’on doit quand même être capable, à un moment donné, d’agir un petit peu sur ces données, être capable de les comprendre. Ça c’est peut-être le premier point qui reste vraiment encore un peu bloquant.
Le deuxième point c’est la question des inégalités territoriales. Il est très clair, et on le voit aussi bien dans la carte de France des territoires que dans cette enquête sur les publics et les usages, que finalement l’open data n’a rien fait, en tout cas n’a pas encore produit grand-chose en matière de rupture des inégalités territoriales. Je reprends un peu l’un des termes proposé pas la Caisse des dépôts dans un article très intéressant qui s’appelait Guide « Smart city versus stupid village ? » [13], on est resté encore un peu dans cette opposition : le numérique, la donnée, les technologies c’est bon pour les zones urbaines mais en dehors ça ne fonctionne pas. Là je pense qu’on a un vrai enjeu autour de ça. Il y a des initiatives. Je pourrai vous montrer, si vous le souhaitez, par exemple ce que fait la Banque des Territoires autour du programme Petites villes de demain. Il y a plein d’exemples où on peut utiliser les données, mais je pense que ça reste encore quelque chose à voir.
Premier point c’est la question de l’élargissement des publics, le deuxième c’est la question des inégalités territoriales et le troisième, qui est tout aussi fondamental pour moi, c’est la question des compétences. On a encore besoin de se doter de compétences dans ce domaine-là. Avoir des données c’est bien, ça ne garantit en rien que vous serez capable de les exploiter, de les utiliser. Et là il y a tout un champ, ce qu’on appelle parfois la littératie des données [14], data literacy en anglais, cette idée de dire qu’il faut vraiment que demain, dans notre société, on soit capable de former des gens qui comprennent ces enjeux. Encore une fois il y a plein de manières de comprendre ces enjeux, ça ne veut pas dire transformer chacun d’entre nous en expert de la donnée, mais on a besoin de médiateurs, on a besoin de gens qui soient capables de faire comprendre que c’est un sujet. On a besoin de gens, dans les collectivités, qui soient capables aussi de s’emparer des données, de montrer un petit peu ce qu’on peut en faire.

Donc voilà sur ce bilan des dix premières années, j’allais dire, de l’open data. Pour conclure peut-être je voudrais vous proposer trois pistes, trois tendances qui, à mon avis, vont aussi être des points un peu déterminants dans les années à venir.
La première piste, on le voit, d’ailleurs pour revenir à l’exemple de Rennes que je citais tout à l’heure. Aujourd’hui j’habite toujours à Rennes. Rennes porte un projet qui est financé au niveau européen, qui s’appelle RUDI [15], qui vise à développer une plateforme de données urbaines, à l’échelon local, et sur cette plateforme l’ambition c’est non seulement d’avoir des données en open data, mais surtout de permettre le partage et la circulation de données de sources très diverses. Se pose notamment la question de ce qu’on appelle le Self Data [16], remettre la possibilité, pour chacun des individus que nous sommes, de contrôler la circulation de nos données. L’idée, derrière, c’est de dire par exemple « moi je suis prêt à partager, peut-être, mes données de déplacement à vélo dans ma ville pour six mois, de manière anonymisée avec ma collectivité, si ça permet d’améliorer les plans de circulation ». C’est un exemple.
De la même manière vous pourriez dire « moi je suis prêt à partager, avec telle équipe de recherche qui va chercher à comprendre les impacts sur l’éducation du confinement, d’un prochain confinement, les traces de connexion à un site comme Pronote qui est le carnet de bord, on va dire, utilisé par les collégiens et les lycéens en France.
C’est cette idée-là de remettre les données personnelles dans la main des individus, sous leur contrôle. Je pense que c’est une première piste à creuser.
Une deuxième piste à creuser c’est la question de l’utilisation des données des entreprises, notamment la question de l’utilisation de ces données-là par la puissance publique.
Je vous ai juste mis un petit article [17]. C’est un article récent, qui date d’un peu plus d’un an, qui raconte que depuis janvier 2020, l’INSEE, l’Institut national de la statistique et des études économiques, pour être précis, utilise des données de caisses de supermarchés, d’hypermarchés pour calculer l’inflation. C’est un exemple qui est tout fait fascinant pour plein de raisons. Je ne sais pas si vous connaissez celui-là, c’est le moment de l’apprendre, de regarder un peu ce que c’est. En fait, l’idée était de dire qu’on a besoin d’être vraiment capable de mesurer l’inflation, donc la hausse ou la baisse des prix pour le coup, au plus près de ce que les Français sentent, ressentent. Parfois il y avait aussi cette critique qui était faite de dire que le calcul de l’inflation ne correspond pas à la réalité du gain ou de la perte du pouvoir d’achat que chacun pouvait ressentir. Face à ça, l’INSEE s’est mis depuis années à travailler avec la grande distribution et, depuis janvier 2020, il y a à peu près 10 % du calcul de l’inflation qui provient très directement des données de tickets de caisses de supermarchés et d’hypermarchés. Qu’est-ce qu’on a sur un ticket de caisse ? Vous avez des paniers de consommation, vous avez des prix, vous avez l’identification du lieu de vente, mais on n’a pas de données à caractère personnel c’est-à-dire qu’on n’a rien qui permette de dire « ce ticket de caisse c’est celui de Simon Chignard ou c’est celui de untel ou untel ». Je pense que c’est une piste vraiment intéressante à creuser.
Donc première piste c’est la question de données personnelles, redonner la capacité à chacun d’entre nous d’agir sur ses propres données personnelles. Deuxième piste c’est la question des données du secteur privé, ce que parfois, en France, on a appellé des données d’intérêt général et enfin, et je finirai mon intervention par ce point-là, peut-être aller regarder vers d’autres types de données qui sont produites par d’autres types d’organisations. Là on était dans l’idée de dire les données sont soit produites par les administrations, par les collectivités, les ministères, soit produites par des entreprises privées, soit produites par des individus, eh bien ça peut être aussi produit sous la forme de communs numériques. Un très bel exemple que j’aime beaucoup et, en plus, c’est aussi une vraie réussite internationale, c’est Open Food Facts [18]. Peut-être que vous connaissez Yuka, cette petite appli mobile qui vous permet d’aller flasher des produits, de voir leur composition et de voir si ce sont des produits qui sont sains ou pas sains ou moins sains on va dire, trop gras, trop salés, trop sucrés ou autre. À la base de Yuka, à l’origine, ils utilisaient cette base qui s’appelle Open Food Facts. C’est vraiment un projet extrêmement intéressant qui consistait, à la base, à aller demander à chacun d’entre nous de saisir les données que nous pouvions trouver sur les produits d’emballage. Si je vous donne juste un exemple, je ne citerai personne, vous avez vu le nom de la marque, mais peu importe ce sont de petits biscuits au chocolat. L’idée c’était d’aller prendre une photo de cette partie-là de l’étiquette, d’aller saisir la liste des ingrédients. Open Food facts met tout ça dans une base de données, refait des analyses, refait des calculs et c’est grâce à ça notamment qu’on est capable, par exemple, de calculer le nutri-score – donc là le nutri-score de ce produit est assez mauvais, il est à D –, d’aller calculer un autre indice qui est intéressant sur le niveau de transformation des produits et puis d’aller aussi afficher un éco-score, c’est l’impact environnemental.
Pour moi Open Food Facts représente aussi une piste d’avenir en ce sens où on peut imaginer demain que des producteurs de données ne soient pas simplement des individus isolés mais soient aussi des collectifs qui essayent, comme ça, de produire en commun de la connaissance, un peu de la même manière qu’on a, avec Wikipédia, essayé de construire des alternatives. Là on pourrait avoir quelque chose de tout à fait intéressant.

Voilà. J’en ai fini pour cette présentation. Je vous remercie de votre attention. Je ne sais pas si, éventuellement, il y a des questions dans le chat ou des réactions. N’hésitez pas, on peut se prendre le temps d’une ou deux questions si vous en avez. Peut-être qu’il n’y en a pas. Vu qu’il est très bientôt 13 heures et que c’était le timing qu’on s’était donné pour cette intervention, peut-être que vous allez filer sur un autre webinaire ou filer pour déjeuner.
Merci à Benoît pour son retour. Très bien. Je souhaite un bon déjeuner à chacun d’entre vous et je vous remercie pour votre attention. Au revoir.