La standardisation des données ouvertes : un grand pouvoir implique une grande réflexivité

Elise Ho-Pun-Cheung
Datactivist
Published in
8 min readJun 9, 2022

Par Samuel Goëta et Elise Ho-Pun-Cheung

La standardisation est souvent considérée comme l’une des conditions de l’interopérabilité, de la réutilisation et donc de l’impact des données ouvertes. Dans la lignée de nombreuses initiatives internationales, par exemple dans le domaine de la mobilité, la France connaît depuis quelques années un foisonnement de projets : la directive européenne INSPIRE en 2007, en 2018 le Socle Commun des Données Locales (SCDL), schema.data.gouv.fr en juin 2019…

Que sait-on de la conception des standards ? De leur mise en œuvre par les producteurs de données ? Et même de leur réutilisation ? Constatant le manque de savoirs savants ou pratiques sur ce sujet essentiel, Datactivist lance un projet de recherche-action afin d’une part de contribuer à des réflexions académiques, d’autre part de créer de nouveaux outils d’accompagnement des démarches de standardisation.

Un contexte favorable à la standardisation des données

Les standards sont omniprésents. Dans les premières lignes d’un ouvrage arguant l’intérêt de prendre ces standards comme objet d’étude, Lawrence Busch dresse ainsi ce constant :

« on peut lire le journal presque tous les jours et trouver des articles sur les standards — des standards pour les personnes, pour l’environnement, pour les produits de consommation, pour le bien-être animal, pour la comptabilité des finances publiques, pour la pression acceptable sur les ponts routiers, pour les soins de santé, pour l’éducation, pour à peu près tout ».

Leur développement et leur diffusion sont fortement encouragés par des institutions publiques nationales et internationales comme l’ISO, AFNOR ou encore l’Union européenne… Si l’on considère les standards de manière très générale, allant de normes « rigides » attestant par exemple l’implémentation de condition de travail sécurisées (norme ISO45000 sur la santé et la sécurité au travail) jusqu’à des pratiques codifiées mais adaptables de conduite des politiques publiques, on constate dans l’ensemble que leur développement et leur diffusion fait l’objet d’un encouragement institutionnel. Cette promotion de la standardisation s’observe également à l’échelle des mondes professionnels, y compris dans celui de l’open data.

La standardisation des données ouvertes s’articule autour de schémas, des conventions qui décrivent les champs et les valeurs admises dans un jeu de données conformes à ses préconisations. Elle s’inscrit dans la lignée d’une série de démarches relativement anciennes.

Le monde de l’information géographique et environnementale a par exemple engagé des travaux avancés sur la standardisation depuis 2007. La directive INSPIRE régit ainsi l’interopérabilité des données géographiques et environnementales en passant par la standardisation des métadonnées mais aussi des données elles-mêmes.

En France, une commission interministérielle (la COVADIS) a été mise en place en 2008 par les ministères en charge de l’écologie, du logement et de l’agriculture pour établir des « géostandards » selon la méthodologie de la directive INSPIRE. Elle avait pour mission de standardiser les données géographiques les plus fréquemment utilisées dans les agents de ces ministères.

Depuis 2013, la gouvernance de ces standards a été progressivement internalisée au sein du Conseil national de l’information géographique (CNIG) qui pilote certains standards comme par exemple GraceTHD pour les réseaux très haut débit, RAEPA pour l’eau potable ou encore Star-DT pour les travaux publics.

Au-delà du milieu de l’information géographique, la standardisation des données ouvertes fait l’objet d’incitations politiques. Le rapport sur la politique de la donnée remis par le député Bothorel au Premier ministre le 23 décembre 2020 porte une recommandation (n° 24) sur la définition et la mise en œuvre d’une politique interministérielle d’interopérabilité et de qualité de la donnée, insistant sur l’importance des démarches de standardisation. Suite à ce rapport, 15 feuilles de route ministérielles ont été publiées le 27 septembre 2021 pour assurer la mise en œuvre de ces préconisations.

La feuille de route du ministère de la Cohésion des territoires fixe dans son action 15 l’objectif suivant : « encourager l’ouverture de données selon des référentiels partagés est un gage de qualité qui, à terme, facilitera l’interopérabilité, voire l’émergence de solutions ouvertes. En collaboration avec les associations de collectivités, des territoires pionniers à différentes échelles, ainsi que des éditeurs de solutions numériques équipant les collectivités, il s’agit de converger et de promouvoir les meilleures pratiques de normalisation. »

Cet encouragement institutionnel se décline par la mise en place de dispositifs concrets. Schema.data.gouv.fr référence par exemple les schémas de données publiques (y compris dans leur phase d’investigation, en amont de leur conception), éléments essentiels du processus de standardisation, et propose un accompagnement à la conception de nouveaux schémas.

La standardisation, un processus à ne pas prendre à la légère

Malgré cette exigence croissante de standardisation des données ouvertes, nous constatons que le travail lié à la production et à l’utilisation de standards (au moment de la publication de jeux de données) reste relativement impensé, au-delà de quelques initiatives de documentation, par exemple dans le domaine des MaaS (mobility as a service).

Chaque étape, particulièrement celles de la conception du standard et de la publication des données, repose sur un important travail et a des conséquences sur la suivante. Concrètement, les champs et les valeurs choisies au moment de la conception conditionnent ce que doit renseigner un producteur.

Un standard très complet, comportant plusieurs dizaines de champs, suppose un travail très conséquent (et potentiellement décourageant) du producteur au moment de la publication de ses données (y compris la collecte de données éventuellement manquantes). L’existence d’un standard même simple implique que des jeux de données publiés seront jugés non conformes et être ainsi source de frustration et également de découragement pour leur producteur.

Le standard contraint les réutilisations : l’inclusion ou non de certains champs et valeurs rendra visible ou invisible certains phénomènes ou situations. Par exemple, le standard GTFS en matière d’horaires de transport décrit de manière succincte un aspect de l’accessibilité, en renseignant partiellement (et de façon facultative) l’état des aménagements pour les fauteuils roulants.

Cette information fragmentaire a des conséquences pratiques pour les usagers en situation de handicap qui doivent s’informer sur un trajet dans des applications Google Maps, Moovit ou Transit. Les champs “wheelchair_accessible” et “wheelchair_boarding” étant facultatifs, les personnes en fauteuil n’ont pas nécessairement d’informations concernant l’accessibilité des véhicules et d’une station/d’un quai. Et les valeurs possibles ne renseignent pas sur les modalités concrètes d’accès aux quais. Le GTFS réduit par ailleurs ce que regroupe l’accessibilité, considérant une forme de handicap physique et en laissant de côté d’autres (par exemple, la prise en compte de la malvoyance supposerait de renseigner l’existence ou non de marquages au sol).

Valeurs possibles du champ “wheelchair_boarding” du GTFS

Une fois un standard implémenté dans une multitude d’outils et de services, il devient très difficile de revenir en arrière. Cet “effet cliquet” nous invite à ne pas prendre à la légère le processus de standardisation et ses conséquences pratiques sur les manières de décrire le monde. La standardisation traduit en champs et valeurs des choix de société qui impactent certains publics.

cc by sa Datactivist (https://opendatacanvas.org/challenge-data)

Concrètement, ce travail de recherche mettra au jour les conditions de conception de standards répondant aux attentes des producteurs et des réutilisateurs de données. Il considérera notamment les usages des données et les inégales compétences techniques des publics de la standardisation.

Notre démarche, centrée sur les acteurs, prend au sérieux le travail de négociation au moment de la conception d’un standard. Retracer le processus de conception et de mise en circulation d’un standard permet ainsi de rendre compte de la multitude des personnes susceptibles d’être impliquées.

Ces moments sont aussi des temps de coopération entre acteurs ou d’affirmation du pouvoir de certains au sein des communautés de l’open data. Par exemple, un travail récent de conception nous a interrogé sur l’équilibre à trouver entre un besoin de performance technique du standard, souligné par des individus maîtrisant particulièrement le processus de standardisation, et une simplicité demandée par des professionnels moins spécialistes mais désireux de partager leurs données.

Numérique en communs 2021 — cc by sa Marion Bornaz

Cette tension entre performance et simplicité rappelle la nécessité de prendre en compte les besoins des usagers afin d’assurer la réutilisation des données et, in fine, l’impact des projets d’ouverture des données. Car, rappelons le, les standards sont une des conditions de l’interopérabilité des données. Leur inégale utilisation par les producteurs de données territoriales réduit en conséquence l’impact des projets d’open data.

En nous appuyant sur un travail de terrain sociologique, nous pourrons à terme développer des méthodologies d’accompagnement à la standardisation, dans le but de faciliter l’implication et les interactions entre les acteurs concernés.

Pour étudier les standards au concret : une enquête qualitative

Ce travail de recherche reposera sur une enquête sociologique, principalement qualitative, qui se déroulera sur la période 2022–2023. Plus précisément, nous nous appuierons sur :

  • des entretiens entretiens semi-directifs avec des concepteurs, diffuseurs et réutilisateurs de standards
  • des observations, y compris participantes, régulières dans des espaces dans lesquels sont conçus collaborativement de nouveaux standards
  • une étude documentaire afin de rendre compte de la diversité des démarches passées de standardisations (archives papier et en ligne produites par des concepteurs de standards, documentation technique, RFC, etc.).

Par cette triple approche, nous nous attacherons à suivre d’une part des standards préexistants à l’enquête et à rendre compte des conditions de leur réussite ou échec. Nous pensons par exemple au GTFS dans le domaine de la mobilité, au schéma des données essentielles de la commande publique (DECP) ou encore le schéma des registres d’entrées d’archives produit par le Service interministériel des archives de France et l’Association des archivistes français avec l’appui de Datactivist.

D’autre part, nous nous intéresserons à des standards en train d’être produits. Pour ces derniers, nous compterons notamment sur l’implication de plusieurs partenaires du projet, qui acceptent que nous suivions les démarches qu’ils mettent en œuvre. La conception du standard des lieux d’inclusion numérique porté par la MedNum et l’ANCT, accompagné par Datactivist, sera l’un de nos cas d’étude.

Devenez partenaire du projet !

Pour mener à bien ce projet ambitieux et essentiel pour l’ouverture des données, nous avons besoin de votre soutien qui nous permettra d’aboutir à plusieurs outil pratiques à destination des acteurs de la standardisation des données :

  • une étude documentaire et de premières observations seront la base empirique d’un livret de cas d’usage de la standardisation
  • un guide de la standardisation des données territoriales proposera plusieurs options méthodologiques accompagnant pas à pas la conception et la mise en œuvre d’un standard
  • des outils pour faciliter la conception (notamment le choix des champs), la concertation (faciliter la prise en compte des retours), puis la mise en œuvre d’un standard (outils de suivi).

Si vous souhaitez en savoir plus, n’hésitez pas à contacter Samuel Goëta (samuel@datactivist.coop) et Elise Ho-Pun-Cheung (elise@datactivist.coop)

--

--