Standards de données ouvertes : enseignements d’un workshop à Londres

For the last two days, I (@samgoeta) was in London for a very stimulating workshop on open data standards hosted by our friends from the Open Data Services Coop. In this blog post, I wanted to share some of my notes of the projects we discussed and some of our reflections on open data standards. The workshop being part of a project with the ODI, its conclusions will be shared to the community. I write this post in French because these projects and their development process got little attention in the French-speaking open data community.

Dans le monde de l’ouverture des données publiques, les standards de données fleurissent dans tous les domaines, le plus connu étant le GTFS (General Transit Feed Specifications) développé au départ par Google et devenu aujourd’hui la norme de facto dans les domaines des transports. Tim Davies, chercheur sur l’open data et co-fondateur de la coopérative Open Data Services, les a présentés au début de la rencontre comme des outils de collaboration massive essentiels pour que les données ouvertes sont utiles et utilisées — notre obsession chez Datactivist. Les promesses de la standardisation des données sont énormes : en produisant des données interopérables, les producteurs de données s’assurent que leurs données peuvent être agrégées dans des bases plus larges où elles seront facilement découvertes par les usagers. La standardisation permet aussi de bénéficier d’une multitude d’outils prêts à l’emploi pour les données respectant les spécifications. Pour les usagers, la standardisation facilite la réutilisation du fait du travail de documentation des données et des possibilités de croisement permis par l’interopérabilité des données.

Les promesses de la standardisation sont bien connues mais que se passe-t-il quand on standardise des données ? Les données sont-elles aussi facilement réutilisées qu’anticipé ? Comment les standards peuvent-ils évoluer pour prendre en compte les retours des usagers ? Dans le cadre d’un meetup dans l’espace de coworking géré par Cotech, le réseau des coopératives du numérique au Royaume-Uni, nous avons étudié comment les standards de données peuvent parvenir à devenir des outils de changement social et exploré les défis posés par la standardisation des données. Pour ce faire, nous avons pu découvrir les histoires de cinq projets de standardisation dans des contextes variés à différents niveaux de maturité.

IATI : rendre transparente l’aide au développement

Le premier projet présenté était International Aid Transparency Initiative (IATI), un standard de données qui permet aux organismes d’aide au développement de rendre compte au public des projets financés et de mieux coordonner leurs actions entre elles. Aujourd’hui, plus de 600 agences ouvrent leurs données selon le standard IATI qui est devenu obligatoire dans plusieurs pays comme le Royaume Uni. Le standard a maintenant atteint un certain niveau de maturité et célèbre l’année prochaines ses dix ans d’existence. Bill Anderson, consultant pour Development Initiatives qui a participe au développement technique d’IATI, a partagé deux enseignements de son expérience. Premièrement, prendre en compte le retour des usagers des données dès le départ est essentiel. Bill le dit sans détour, le standard a mal été conçu au départ : comment le réparer maintenant ? IATI a décidé récemment de changer le processus de révision du standard en accordant toutes les parties prenantes sur les évolutions du standard avant de développer les détails techniques en XML, là où auparavant la communauté devait débattre des détails techniques sans être consulté sur le fond du standard. Deuxièmement, contrairement à ce qu’on a longtemps cru, la communauté de l’open data n’a pas les moyens d’être soutenable, elle doit être soutenue financièrement. Après leur ouverture, les données brutes ne se transforment pas en information toutes seules. Il faut donc penser l’accompagnement des réutilisateurs tant techniquement que financièrement. Il le résume de manière ironique et critique : « en fait, sommes-nous juste des fournisseurs de données (néo) libéraux venus du Nord qui cherchent désespérément la demande venue du Sud ? »

360giving : ouvrir les données sur les aides aux associations

Le second projet présenté, 360Giving, portait sur un domaine très similaire : les bourses aux associations. Le standard de données a pour objectif d’aider les donateurs à mieux rendre compte des projets qu’ils aident. On peut le résumer en cinq questions : Qu’est-ce qui a été financé ? Combien a été donné ? Qui a donné ? Qui a reçu ? Quand l’aide a-t-elle été accordée ? Et, si possible, où les fonds ont-ils été alloués ? Les concepteurs du standard sont partis des besoins des producteurs de données dont ils ont constatés les faibles ressources technologiques. De ce fait, ils ont décidé que la publication des données se ferait à partir d’un simple tableur, là où les autres standards présentés ont adopté une approche plus complexe fondée sur des formats comme le XML ou le JSON qui exigent des producteurs et des réutilisateurs de disposer de compétences techniques avancées. A partir de ces données, des outils ont été développés comme GrantNav pour parcourir plus de 220 000 bourses accordées ou Beehive qui permet aux associations de découvrir les bons financeurs pour leurs projets. Pour Rachel Rank, la directrice de 360Giving, il faut admettre que les données, même standardisées et complètes, ne suffisent pas à répondre à des questions complexes telles qu’ « est-ce que le financement atteint les zones où se situent les plus grands besoins ? »

Un exemple d’analyse des données réalisé par OSCI sur les fonds de la loterie

Open Contracting Data Standard : tout, tout, vous saurez tout sur les marchés

Toujours au sujet de l’allocation des fonds publics, Gavin Hayman, directeur d’Open Contracting Partnership, a présenté l’Open Contracting Data Standard (disclaimer : nous avons traduit le standard en français dans le cadre d’un contrat avec OCP). Les ambitions du standard sont immenses : il vise à rendre transparentes toutes les étapes de la vie de la commande publique de sa planification jusqu’à sa mise en œuvre avec des données publiées en continu. Le standard se fonde sur les besoins liés à 4 cas d’usage : l’amélioration du rapport qualité/prix de la commande publique, l’intégrité du processus de passation de marché, l’efficacité des services rendus et l’égalité des chances entre les entreprises concurrentes.Techniquement, le standard est bâti autour de données structurées en JSON décrivant les éléments essentiels liés à un marché : les documents, les administrations commanditaires, les entreprises candidate, les livrables, les étapes, les lieux concernés, les paiements… Gavin a présenté l’Ukraine comme la preuve de concept de l’efficacité du standard : en deux ans, 850 millions de dollars ont été économisé, la diversification des fournisseurs a augmenté de 45% ou encore la perception de la corruption est passée de 54% à 29%. Dans le cas ukrainien, OCDS a pris part à un projet plus large de dématérialisation et de refonte des marchés publics autour d’une plateforme nommée Prozorro. Dans d’autres cas comme le Mexique, les outils de passation de marché sont restés inchangés et l’ouverture des données via OCDS est permise par l’interconnection des systèmes d’information. Enfin, au Nigeria, les données sont scrappées directement depuis les sites gouvernementaux existants.

Prozorro en Ukraine : la success story d’Open Contracting

Open Referral : faciliter l’accès aux services sociaux pour les personnes dans le besoin

La rencontre a permis aussi de s’intéresser à des standards plus « grassroots », élaborés par la société civile en fonction de ses besoins. C’est le cas d’Open Referral, un standard élaboré aux Etats-Unis par Greg Bloom pour répondre à un problème essentiel : les personnes dans le besoin ont le plus grand mal à trouver les informations sur les services sociaux à leur disposition. A l’heure actuelle, tous les services d’aides sociales constituent leurs propres bases de données et se plaignent de leur incomplétude. Pour y répondre, Open Referral propose un standard de données pour déterminer : quel organisme propose quel service social ? Où, quand et comment y accéder ? Plutôt que de proposer une application qui répond à ces questions, Open Referral tente de développer un écosystème autour de ses données pour que les personnes dans le besoin trouvent l’information, quel que soit le service dans lequel elles cherchent. A Chicago, Open Referral a permis le lancement de plusieurs services autour des données ouvertes par Purple Binder, un annuaire des services sociaux. Le standard en est à ses débuts mais, pour Open Referral, l’incertitude porte sur le modèle économique : comment générer des revenus tout en augmentant l’impact social par l’ouverture des données ?

Réutilisation des données de Purple Binder à Chicago par mReflief

Open Repair : bâtir une économie de la réparation

Enfin, Neil Mather a présenté Open Repair, un standard de données pour faciliter la réparation et la maintenance de nos appareils électroniques. Le standard est initié et maintenu par une alliance d’acteurs comme le réseau des Repair Cafés ou iFixit qui se donne pour mission de bâtir une économie de la réparation. Le standard qui en est à ses tout débuts devrait permettre aux réparateurs associatifs et professionnels de partager des données sur leurs actes de réparation : quel appareil a été réparé ? en combien de temps ? qu’est ce qui a été réparé ? quelle a été l’issue de la réparation ? Il s’appuie sur le travail déjà réalisé par iFixit pour déterminer précisément le modèle de l’appareil concerné. Pour aboutir à aligner les acteurs autour d’un standard commun, Open Repair a choisi un modèle de consortium d’acteurs qui se connaissent, partagent une vision commune et s’appuient sur des cas de standards existants comme on peut le lire dans leur manifeste.

“Achieving change in the way products are made, supported and taken care of when they need a repair, requires more than what any individual organisation can do alone. […] By using insights from thousands of repairs performed at community events, we can bring more urgency to citizens’ frustration with current product designs, and make change inevitable.”

Standardiser entre humilité et ambition

Au final, j’ai retenu plusieurs enseignements de ces deux journées à réfléchir sur les standards de données ouvertes (un rapport partagera prochainement les résultats de cette rencontre). Premièrement, les concepteurs de standards sont dans une position complexe voire contradictoire. Ils doivent être ambitieux en promettant de résoudre des problèmes complexes pour motiver à la fois les producteurs de données, leurs usagers et les financeurs. Mais, d’autre part, ils doivent rester humbles tant les problèmes auxquels ils s’attaquent ne peuvent pas être résolus par une approche purement technologique et tant le processus de standardisation demande d’apprendre de ses erreurs et de rester à l’écoute des usagers. Les concepteurs de standard doivent aussi faire des arbitrages difficiles entre les besoins parfois divergents des usagers et des producteurs, la standardisation demandant un travail organisationnel, politique et technique considérable.

Se pose aussi la question des moyens : produire un standard qui répond aux besoins des usagers demande un travail et une expertise considérables. Comment faire pour que des acteurs au niveau national ou local s’emparent des bonnes pratiques élaborées par les concepteurs internationaux de standard de données au fur et à mesure des épreuves auxquelles ils ont fait face ? Se pose toujours la question du public de ces données : l’utilisation d’un standard est supposée permettre l’apparition d’une multitude d’outils. Mais comment faire lorsque l’offre de données ne rencontre pas de demande ? Peut-on toujours partir du principe que la société civile va se saisir de données complexes et produire des services gratuitement ? L’utilisation de standards complexes peut avoir des effets pervers : le public peut ne plus avoir plus avoir les moyens et les compétences d’inspecter les données aussi simplement qu’avec des formats tabulaires. Enfin, il reste le risque de l’open washing : une organisation peut publier des données incomplètes qui ne répondent pas à la philosophie d’un standard mais techniquement passent l’épreuve du validateur de données et sont jugées conformes. Nous aurons l’occasion d’y revenir dans un prochain article au sujet d’un cas français.