Qui a ouvert quoi ? le recensement des données des villes est maintenant ouvert

Plus de 400 jeux de données ouvertes à explorer

Samuel Goëta
Datactivist
8 min readFeb 15, 2018

--

Parcourez les 400+ lignes du recensement

Parcourir les données du recensement : frama.link/recensement_communes_explore

Télécharger les données du recensement (format Open Document, licence CC-BY-SA 4.0) : frama.link/recensement_communes_ods

TLDR; le recensement des données ouvertes par les municipalités vous permet de connaitre quelle commune a ouvert quel jeu de données sur un échantillon de 16 villes en France. Il n’est pas exhaustif mais il permet d’ores et déjà de découvrir plus de 400 jeux de données ouverts et ouvrables. Ce travail d’exploration révèle les difficultés des réutilisateurs quant à la découvrabilité et à la qualité des données ouvertes. Des données manquent ? Avec DODOdata, nous pouvons vous aider à les ouvrir !

Edit : le recensement des données a été étendu en 2019 avec l’aide des étudiants de la Licence MIND de l’IUT de Bordeaux aux départements : https://airtable.com/shrnLFe2NhCA9VvP et aux régions en 2020 : https://airtable.com/shrTV0flvzdz4Qnqm

Le recensement consiste à rapprocher les jeux de données similaires ouverts par les villes. Concrètement, nous avons inspecté la documentation et le contenu des données puis rapproché les jeux de données entre eux à partir de leur similarité. Ce travail n’a pas vocation à l’exhaustivité, son ambition initiale était de disposer d’un panorama des jeux de données ouverts par les municipalités afin de connaitre les données pouvant faire l’objet d’une demande d’ouvertures de données (DODO) dans le cadre du projet DODOdata. Aussi, le recensement peut être vu comme un outil d’évaluation de la “communicabilité” d’une donnée : le fait qu’une ville donnée a ouvert un jeu de données similaires prouve qu’il est possible légalement d’ouvrir ces données dans une autre collectivité. Enfin, le recensement a été pensé comme un outil de pilotage d’une politique d’open data : il permet de guider les chef-fe-s de projet d’open data vers de nouveaux jeux de données à ouvrir.

Le recensement a été conduit sur la période avril-septembre 2017 sur 16 villes françaises choisies sur la base des 20 plus grandes villes françaises ayant une stratégie d’open data (Paris, Marseille, Grand Lyon, Toulouse, Nice, Rennes, Nantes, Montpellier, Bordeaux, Lille, Angers, Grenoble, Poitiers, Strasbourg) et de deux villes moyennes ayant une politique open data avancée (Martigues et Saint Malo). Il est possible qu’entre temps certains jeux de données aient été modifiés, supprimés ou complétés, rendant caduques l’évaluation et les commentaires associés. Dans de nombreux cas, nous avons rencontré des données obsolètes, elles sont généralement signalées dans les commentaires. Nous avons aussi trouvé beaucoup de jeux de données nationaux, redécoupés à l’échelon local (élections, bureaux de poste, crimes et délits…). Bien qu’intéressantes d’un point de vue de l’utilisateur, ces données mériteraient d’être mieux différenciées de celles produites par les collectivités locales.

Le recensement est le fruit de la ténacité de Timothée Gidoin à qui l’équipe de Datactivist exprime sa profonde gratitude d’avoir mené à bout ce travail méthodique et ardu. Sans être exhaustif, le recensement dresse un premier panorama des données ouvrables par les villes. Il a été confronté à de nombreux problèmes concrets sur lesquels il a fallu arbitrer : ces arbitrages sont documentés dans une note méthodologique.

Voici les premiers enseignements que nous avons pu tirer de ce travail et la suite que nous allons y donner.

Une grande hétérogénéité des données publiées

Le recensement met en exergue la disparité des politiques d’open data entre les communes étudiées. La liste des dix jeux de données les plus partagés dans l’échantillon du recensement le montre bien (⚠ certaines données peuvent avoir été ouvertes depuis le dernier pointage) :

  • Budget primitif — voté
    Indisponible à Grenoble, Lyon et Nice
  • Localisation des écoles maternelles et primaires
    Indisponible à Lyon, Angers et Strasbourg
  • Statistiques autour des naissances
    Indisponible à Bordeaux, Grenoble, Lyon et Toulouse
  • Marchés publics
    Indisponible à Grenoble, Lyon, Marseille et Nice
  • Prénoms les plus donnés aux enfants
    Indisponible à Bordeaux, Lille, Lyon, Grenoble et Marseille
  • Statistiques autour des décès
    Indisponible à Angers, Bordeaux, Grenoble, Lyon et Toulouse
  • Résultats des élections présidentielles
    Indisponible à Bordeaux, Lille, Lyon, Martigues et Nice
  • Localisation des espaces verts
    Indisponible Angers, Grenoble, Lyon, Poitiers, Rennes et Saint Malo
  • Subventions directes versées aux associations
    Indisponible à Angers, Bordeaux, Lyon, Marseille, Nice, Saint Malo et Strasbourg
  • Statistiques autour du mariage
    Indisponible à Angers, Bordeaux, Grenoble, Lille, Lyon, Marseille, Toulouse

Cette disparité ne fait pas exception pour certaines des données qui figurent au socle commun de données locales proposé par Open Data France et qui font l’objet de décrets spécifiques sur le format des données ouvertes comme les subventions, les marchés publics ou les budgets. Bien sûr, cette disparité doit aussi au fait que beaucoup des données recensées ne sont pas pertinentes dans d’autres contextes locaux (par exemple, le tracé des digues à Saint-Malo) ou ne sont pas produites par toutes les villes.

Une documentation des données laconique

Dans l’immense majorité des cas, les descriptions des jeux de données dans les métadonnées sont très courtes. Ce constat nous le faisons quotidiennement, restait à l’objectiver. C’est chose faite suite à un projet tutoré conduit avec les étudiant-e-s de la licence Médiations de l’information numérique et des données (MIND) portant sur les catalogues de données de 12 des 16 villes du recensement (pour quatre d’entre elles, il était impossible de récupérer le catalogue des données).

Nous nous sommes intéressés à la longueur du champ description dans les métadonnées produites ce qui nous a révélé les deux chiffres suivants :

La moitié des descriptions des jeux de données fait moins de 180 caractères (soit un peu moins de la longueur d’un tweet)

4% des jeux de données ont une description supérieure à 1000 caractères soit moins d’une demi-page

La très faible documentation des données ouvertes par les collectivités locales entrave bien souvent la réutilisation des données du fait que le public n’a que très peu d’informations sur les conditions concrètes de production des données et les champs qui les composent. Au delà des frictions que cela provoque dans la réutilisation des données, la faible documentation a pour conséquence que les données sont mal indexées et donc très difficilement découvrables. Le dernier rapport de l’Open Data Index a ainsi souligné que la découvrabilité des données (data discoverability) est un problème majeur pour le mouvement de l’open data car, à l’heure actuelle, la plupart des données sont très difficiles à trouver.

Des données parfois inexploitables

Il n’est pas rare d’être déçu lorsqu’on ouvre un jeu de données en open data comme l’a montré dans un tweet en quatre images le cartographe Jules Grandin. Vincent Brouté, data scientist, a aussi donné un autre exemple de la difficulté de réutiliser des données ouvertes du fait de problèmes de qualité avec son billet “mémorandum sur ce qu’il ne faut pas faire en Open Data, avec Datainfogreffe.” Il y liste les nombreux problèmes qu’il a rencontrés en réutilisant les données ouvertes par Infogreffe : colonnes en doublon, colonnes qui disparaissent ou sont créées chaque année, des coordonnées géographiques erronées, des codes postaux inexistants…

Timothée, dans son travail méthodique de recensement, a pris la peine d’ouvrir les fichiers ouverts par les communes pour vérifier si les données correspondent bien à ce qui est décrit ou si elles sont tant que possibles exploitables. Même si beaucoup de données ne posaient pas de problèmes particuliers, il a pu ainsi rencontrer un véritable musée des horreurs de la donnée ouverte. On vous en présente deux exemples qu’on aime particulièrement.

Tableur ne veut pas toujours dire données structurées
Ne pas abuser de la cellule fusionnée

Ce constat, nous ne sommes pas les seuls à le faire, c’est un problème international que signale le dernier rapport de l’Open Data Barometer :

Les données des gouvernements sont souvent incomplètes, pas actualisées, de mauvaise qualité et fragmentaires. Dans la plupart des cas, les catalogues ou portails de données ouvertes sont alimentés manuellement, conséquence d’une approche informelle de la gestion des données. De plus, les procédures, les calendriers et les responsabilités des institutions publiques chargées de leur gestion manquent souvent de clarté. Ainsi, de manière générale, la gestion et la publication des données ouvertes sont fragiles et sujettes à des erreurs multiples.

Peu de mécanismes de remontée des problèmes par les usagers

Pour faire face à toutes ces sources de frictions et comprendre comment exploiter ces données, les usagers doivent pouvoir échanger entre eux et obtenir un retour de l’administration sur les données. Sur data.gouv.fr, il n’est pas rare que la documentation des données soit beaucoup plus riche dans les discussions que dans les métadonnées officielles comme c’est le cas par exemple pour la base des accidents de la route du ministère de l’Intérieur.

Or, sur les 16 villes étudiées dans le recensement, seules 6 (Angers, Lille, Nantes, Poitiers, Rennes, Toulouse) ont ouvert la possibilité d’ouvrir un fil de commentaires pour chaque jeu de données. De ce fait, il n’y a pas de possibilité d’entraide entre les usagers ou de mise en valeur des échanges qui peuvent avoir lieu entre la communauté et les réutilisateurs. Ces échanges sont pourtant essentiels pour fluidifier les frictions inévitables lors de la réutilisation de données produites dans un contexte inconnu comme l’a montré la littérature en sociologie des sciences qui s’est intéressée aux pratiques de partage de données dans la recherche.

Passer de l’open data “de l’offre” à l’open data “de la demande”

Au final, le recensement révèle que les politiques d’open data fonctionnent généralement comme des politiques de l’offre. Contrairement à l’idéal des grands principes de l’open data qui postulent que toutes les données sont ouvertes sous leur forme brute dès leur production, les administrations choisissent quelles données ouvrir, comment les ouvrir, quand les publier, les mettre à jour et déterminent ce qu’elles contiennent.

Pour passer progressivement d’une logique “de l’offre” à la logique “de la demande”, nous développons le projet DODOdata qui vise à “réveiller les données qui dorment” en facilitant les Demandes d’Ouverture de Données (DODO). Depuis 8 mois, nous collectons les demandes sur le portail dans un formulaire simplifié. Nous avons reçu une soixantaine de demandes que nous avons toutes traitées ce qui nous a permis de définir un process de traitement des demandes. Nous avons obtenu nos premières victoires avec la réception de nos premiers jeux de données comme les subventions de la ville de Vitry-sur-Seine ou la mise à jour des autorisations de tournages de la ville de Paris.

Au cours de l’année 2018, nous souhaitons que le projet DODOdata passe à la vitesse supérieure. C’est pour cela que nous rejoignons prochainement l’incubateur de la Belle de Mai qui nous aidera au développement du projet.

Concernant le recensement, nous nous lançons sur deux chantiers. Premièrement, dans le cadre de la cellule Recherche & Développement de Datactivist, nous allons travailler avec Mathieu Morey sur l’automatisation par le machine learning de ce travail par l’analyse de données textuelles et l’utilisation des données elles-mêmes comme métadonnées. Deuxièmement, avec les étudiant-e-s de la licence Médiations de l’information numérique et des données de l’IUT Bordeaux-Montaigne (Chloé Lalouette, Frédéric Kingué Makongué, Matthieu Olivari, Theo Rousselle), nous allons entreprendre ce travail de recensement pour les données ouvertes par les conseils départementaux. Les résultats seront bien sûr partagés sous licence ouverte au printemps.

--

--

Samuel Goëta
Datactivist

Co-founder @datactivi_st, researcher on #opendata, member @okfnfr @savoirscom1