Dat’accélère : des ateliers et une méthodologie pour booster vos projets avec des données

Samuel Goëta
Datactivist
Published in
11 min readNov 12, 2019

Notre expérience, à travers notamment l’organisation de la Data Literacy Conference, nous a montré que la compréhension des données reste une compétence encore mal répandue dans les organisations. Souvent, nous entendons que les données sont arides, froides ou ennuyeuses, que “ce n’est pas pour moi” ou que c’est “trop technique”. C’est partant de ce constat que nous avons conçu, avec l’Agence des villes et territoires méditerranéens durables (AVITEM) et Charles Népote, un cycle d’ateliers gratuits intitulé “Dat’accélère” visant à booster des projets grâce aux données ouvertes, quel que soit leur stade de maturité et sans pré-requis techniques. À l’issue de ces ateliers, 3 projets seront sélectionnés pour un accompagnement personnalisé ! Il est toujours possible de rejoindre ces ateliers, y compris si vous êtes porteur de projets : inscrivez-vous ! Nous vous présentons ici la méthodologie de ces ateliers.

La réutilisation des données : un parcours du combattant pour les novices

Quand des personnes novices dans le domaine dépassent cette première appréhension, elles se heurtent généralement à trois obstacles principaux lorsqu’elles tentent de découvrir et d’exploiter les données disponibles :

  • la découvrabilité : à l’heure actuelle, les données sont très difficiles à trouver du fait de la faiblesse des moteurs de recherche des portails, de métadonnées incomplètes mais aussi de l’éparpillement des jeux de données sur différents portails ainsi que de l’absence d’harmonisation des données entre les différents acteurs publics.
  • la documentation des données. Beaucoup de données sont accompagnées d’une description très réduite. Dans une étude portant sur les portails 12 villes majeures en France, Datactivist a montré que la moitié des descriptions des jeux de données faisait moins de 180 caractères (soit un peu moins de la longueur d’un tweet) et 4% seulement des jeux de données ont une description supérieure à 1000 caractères soit moins d’une demi-page. Dans ces conditions, il est très difficile pour un usager de comprendre ce que contient le jeu de données, ses conditions de production des données et ses limites.
  • la qualité des données : elle ne peut être évaluée que par la confrontation entre des domaines de pratiques aux enjeux différents. En d’autres termes, la qualité des données ne dépend que de l’usage qui en est fait. Ce point rejoint le précédent : la documentation est indispensable pour que le public parvienne à saisir le contexte de production des données et les adapte à de nouveaux usages, souvent inconnus de celles et ceux qui les produisent.

Sans médiation, la réutilisation des données peut donc s’apparenter à un parcours du combattant. Le mouvement de la data literacy défend l’idée que la capacité de produire, comprendre et utiliser des données numériques devient une compétence essentielle, presque au même titre que lire, écrire ou compter.

Des opportunités manquées pour les porteurs de projets

Nombreux sont les porteurs de projet à passer à côté des données du fait des problèmes évoqués précédemment. Pourtant, les données peuvent potentiellement décupler l’impact d’un projet en offrant de nouvelles opportunités de création de services, en proposant de nouveaux éclairages sur les phénomènes étudiés ou en accélérant des processus métier peu optimisés.

Beaucoup de données sont encore inconnues des porteurs de projet alors qu’elles sont disponibles sur les portails open data. D’autres pourraient avoir un impact très fort sur les projets mais n’ont pas été mises à disposition par les acteurs qui les détiennent. Or, la loi permet de demander aux acteurs investis d’une mission de service public les données non-personnelles qu’elles produisent. La possibilité de demander ces données potentiellement ouvrables est encore relativement méconnue. Enfin, hors du spectre de l’open data, certaines données sont accessibles après la signature d’un partenariat ou l’acquittement d’une redevance.

Mobiliser ces données peut permettre aux porteurs de projets de bénéficier de facteurs de différenciation et d’avantages comparatifs décisifs.

Des échanges trop rares entre producteurs et réutilisateurs de données

Du côté des acteurs publics qui ouvrent des données dans le cadre de projets d’open data, il est indispensable que les données mises à disposition trouvent un public qui les réutilise pour créer des services, les analyser, les visualiser ou encore mobiliser. Si les données ne trouvent pas un public, l’ouverture des données peut difficilement perdurer du fait du travail que génère la mise à disposition et l’amélioration continue des données. Il est donc indispensable pour les agents en charge d’un projet d’ouverture de données de montrer et de valoriser des cas d’usage.

Or, les espaces d’échange et de dialogue entre producteurs et réutilisateurs de données sont encore rares. Beaucoup de données sont ouvertes puis mises à jour sans que les potentiels usagers n’aient l’occasion d’exprimer leurs attentes, leurs besoins et de faire un retour sur les données mises à disposition. Datactivist a montré dans une étude portant sur 16 villes en France, que seules 6 ont ouvert la possibilité d’ouvrir un fil de commentaires pour chaque jeu de données. De ce fait, il n’y a pas de possibilité d’entraide entre les usagers ou de mise en valeur des échanges qui peuvent avoir lieu entre la communauté et les réutilisateurs. Ces échanges sont pourtant essentiels pour fluidifier les frictions inévitables lors de la réutilisation de données produites dans un contexte inconnu.

Les ateliers devront ainsi permettre de favoriser la rencontre entre porteurs de projet et réutilisateurs afin d’aider à la découverte de données pertinentes, de prendre en compte les besoins exprimés et d’encourager à l’ouverture des données dont les usagers ont besoin.

Le parcours d’évaluation du potentiel data : une méthodologie réutilisable pour booster les projets

Les ateliers Data’ccélère dans le cadre du projet européen ODEON Interreg Med visent ainsi à répondre aux défis évoqués précédemment :

  • Aider les porteurs de projet dans les trois domaines du programme (économies verte et bleue, industrie créative) à cerner le potentiel data de leur projet ;
  • Démultiplier l’impact de projets en mobilisant les données ouvertes et en développant de nouvelles formes d’usage ;
  • Favoriser la rencontre entre porteurs de projets et producteurs de données ouvertes pour améliorer la qualité des données ;
  • Faire émerger 3 projets emblématiques qui seront accompagnés en détail dans la mise en œuvre du plan de route data élaboré à l’issue des ateliers.
Évènement de lancement du programme Dat’accélère le 26 septembre 2019 à Marseille — Charles Nepote en action !

Afin de conduire ces ateliers, nous nous sommes appuyés sur le parcours d’évaluation du potentiel data élaboré par la FING dans le cadre de la campagne Infolab et largement enrichi par Simon Chignard. C’est une méthodologie française documentée, “open source” qui a déjà été éprouvée en entreprise auprès du groupe UP notamment. Elle vise à évaluer le potentiel des données (notamment ouvertes) pour un projet en minimum une journée et peut être décomposé en deux ou trois sessions.

Cette méthodologie ne requiert aucune connaissance technique, est reproductible et peut s’adapter à tout type de projet. Elle débouche sur le “plan de route données”, un plan d’action permettant d’intégrer au projet les données utiles selon deux critères : le fort impact sur le projet et l’accessibilité des données. Force de cette méthodologie, le plan d’action contient notamment une série de dix actions à réaliser maintenant, dans les trois prochains mois et au cours de la prochaine année.

La méthodologie du parcours d’évaluation données est documentée à l’adresse suivante :https://infolabs.io/pes

La méthodologie du parcours d’évaluation du potentiel data comporte trois phases principales qui, selon les projets, pourront s’étendre entre les différents ateliers.

Phase 1 : “Wanted Data List”, comprendre les besoins data du projet

Le premier atelier débute par un décorticage des projets pour comprendre leur fonctionnement actuel, leur objectif à court et moyen terme, les acteurs mobilisés et l’état des lieux de leur travail par rapport aux données. Lors du premier atelier, trois projets ont été accompagnés pour comprendre leurs besoins data :

  • Ma boite à outil climatique : ce projet vise à objectiver le changement climatique pour les agriculteurs à l’échelle de leur exploitation (tempêtes, grêles, innondation…) et à bâtir une stratégie d’adaptation au changement climatique ;
  • Carte imaginaire des transports à Marseille : ce projet vise à présenter le réseau idéal des transports à Marseille afin d’encourager les autorités à combler les vides et les faiblesses de la mobilité sur le territoire ;
  • Sus à la suie ! ce projet vise à monitorer la qualité de l’air extérieure et à savoir si l’air que je respire est dangereux.

Ensuite, les porteurs de projet ont rempli la “Wanted Data List” qui est la liste des données idéales qui seraient utiles ou que l’on pense en rapport avec notre sujet. C’est une manière de prendre pied avec le sujet. C’est un exercice simple au cours duquel les participants sont souvent très créatifs. Il est vraiment intéressant que cet exercice soit réalisé à plusieurs, si possible avec un public hétérogène.

A ce stade, il convient de décrire les jeux de données de la manière la plus simple, sans a priori ni référence à un jeu ou un fournisseur de données particulier : c’est la nature des données qui nous intéresse. Par exemple :

  • OK : sens de circulation des rues de Marseille.
  • KO : SIG de la ville de Marseille (ça ne nous dit pas quelle donnée vous intéresse et ne permet donc pas de savoir si elle n’est pas plus accessible ailleurs).

Lors du premier atelier Dat’accélère qui s’est tenu le 5 novembre 2019 à l’EJCAM à Marseille, près de 85 jeux de données divers et variés ont été ainsi identifiés par les trois groupes :

Les jeux de données identifiés dans les Wanted Data List des premiers ateliers

Phase 2 : la collecte et l’évaluation des données

Une fois les données idéales identifiées (Wanted Data List), il faut maintenant trouver de vrais jeux de données correspondants à travers une phase de collecte des données. Dans certains cas, la réponse est connue (par exemple : données INSEE) mais il est intéressant de trouver plusieurs sources pour une donnée, de manière à pouvoir les comparer en terme de facilité et coût d’usage, de complétude, de qualité des données, etc. — ce travail sera réalisé à la phase suivante.

La collecte des données est réalisée par le porteur de projet accompagné par les participants individuels aux ateliers. La recherche de données peut être longue et frustrante, un travail de groupe est recommandé. Pour chaque donnée de la Wanted Data List, la méthodologie consiste à réaliser plusieurs types de recherches, des plus générales aux particulières (Wikipédia, moteurs de recherche, experts, portails open data, ressources de curation des données…). Nous avons proposé plusieurs conseils pour identifier les données mais l’accompagnement humain et la médiation sont indispensables dans la curation des données qui repose beaucoup sur un savoir tacite.

Dans l’évaluation, chaque jeu de données listé dans le catalogue fait l’objet d’une évaluation à travers la “Dataset check list”. Cette évaluation produit deux notes sur une échelle de 0 à 4 selon sa valeur, de la moins critique à la plus critique pour la réussite du projet:

  1. ce serait bien d’avoir cette donnée, mais elle n’est pas critique pour ce projet,
  2. cette donnée permet d’augmenter le service rendu à l’utilisateur, mais ce n’est pas critique si elle n’est pas disponible,
  3. cette donnée est essentielle pour la réussite du projet, cela va fortement réduire la valeur pour les utilisateurs si elle manque,
  4. cette donnée est critique: ce serait très difficile de réaliser ce projet sans cette donnée.

…et de 1 à 4, selon sa disponibilité:

  1. cette donnée ne peut pas être facilement obtenue: elle n’existe pas sur le marché, elle est trop coûteuse pour notre projet, ou il y a des difficultés juridiques ou techniques pour collecter cette donnée (par exemple le respect de la vie privée),
  2. il est possible d’acquérir cette donnée, mais cela demande du temps et des investissements supplémentaires,
  3. cette donnée est déjà disponible, mais pas à un niveau de détails ou de qualité suffisants pour notre projet,
  4. cette donnée est disponible, et son niveau de détails et sa qualité sont suffisants pour notre projet.

Au terme de cette évaluation, une cartographie des données permet de visualiser les données à mobiliser en priorité :

Phase 3 : le plan de route data

La cartographie des données réalisée à l’étape précédente est un outil pour préparer le plan de route données du projet.

On recense 5 options en matière de sourcing des données:

  1. Sécuriser : s’assurer qu’une donnée critique pour le projet ne sera pas dégradée ou que sa fourniture ne sera pas interrompue,
  2. Augmenter : investir dans l’amélioration d’une donnée, sa qualité ou son niveau de détails,
  3. Collecter : mettre un place de collecte pour récupérer des données utiles pour le projet mais pas ou peu disponibles — on peut étudier l’intérêt du crowdsourcing,
  4. Nouer des partenariats : établir des accords avec des tiers pour accéder à leurs données, ou faire de l’échange de donnée entre partenaires,
  5. Acheter : identifier des sociétés (courtiers en données…) qui pourraient vendre les données qui nous manquent.

En commençant par le cadran en haut à droite de la cartographie (forte valeur pour le projet / données disponibles), les porteurs de projet sont invités à déterminer la meilleure option possible pour chaque type de données.

Pour les données les plus importantes, il peut aussi être important d’évaluer leur qualité dans les dimensions suivantes:

  • L’exactitude : les données sont-elles complètes et fidèles à la réalité qu’elles décrivent ?
  • La fraîcheur : de quand datent les données ? à quelle fréquence sont-elles mises à jour ?
  • La granularité : les donnée sont-elles disponibles au niveau individuel ou seulement de manière agrégée ?

Ensuite, les porteurs de projet sont invités à identifier 10 actions à réaliser maintenant / dans les 3 prochains mois / au cours de la prochaine année.

Venez découvrir la méthodologie avec nous à Marseille dans le cadre de Dat’accélère !

Vous portez un projet dans le domaine de l’économie verte (environnement/développement durable), l’économie bleue (mer, activités portuaires et fluviales) ou l’économie créative (culture, innovation, éducation…) ? Vous êtes agent d’une collectivité territoriale ou administration, étudiant, enseignant, chercheur ? Vous souhaitez aider un projet à progresser ? Rencontrer des réutilisateurs potentiels pour vos données ? Découvrir les données ouvertes ?

Rejoignez Dat’accélère ! Il est encore temps de vous inscrire, les prochains ateliers auront lieu :

  • le 29 novembre, 13h30–17h30, à l’AMSE (5–9 Boulevard Maurice Bourdet, 13001 Marseille) . Inscrivez vous !
  • le 17 décembre, 13h30–17h30, à la CISAM (sous réserves, 61 Boulevard des Dames, 13002 Marseille)

Vous avez des questions ? N’hésitez pas à nous écrire à l’adresse hello@datactivist.coop

Le cycle d’ateliers est organisé dans le cadre du projet européen « Open data for European open innovation » (ODEON), dont l’Avitem est partenaire. Le projet vise à améliorer la qualité et l’accès aux données ouvertes publiées par les institutions publiques et de soutenir la croissance et l’innovation des entreprises qui envisagent de créer de nouveaux produits ou services en exploitant ces données dans les domaines de l’environnement, la mer et l’industrie créative.

Le projet implique 7 pays européens : Italie, Monténégro, Espagne, Croatie, Slovénie, Grèce, France). En savoir plus : https://odeon.interreg-med.eu/

--

--

Samuel Goëta
Datactivist

Co-founder @datactivi_st, researcher on #opendata, member @okfnfr @savoirscom1