Comment améliorer les cartographies de données ? Enseignements d’un atelier sur les données de santé au travail

Samuel Goëta
Datactivist
Published in
7 min readMay 10, 2019

Situé sur la période 2016–2020, le troisième Plan national de Santé au Travail (PST 3) fixe pour objectif de faire évoluer la politique de prévention vers l’anticipation des risques professionnels plutôt que de s’en tenir à une vision exclusivement réparatrice. Les deux précédents plans avaient déjà fixé comme objectif prioritaire l’amélioration des connaissances en santé ou sécurité au travail avec la mise en place de diagnostics territoriaux de santé au travail. Pour conduire des actions pertinentes de prévention/promotion de la santé au travail, les acteurs territoriaux doivent impérativement disposer d’indicateurs précis concernant à la fois les populations au travail, les expositions et les effets sanitaires observés à des échelles géographiques fines.

Pour réaliser les diagnostics territoriaux des Plans Régionaux de Santé au Travail, il faut pouvoir mobiliser de nombreuses données aux modes de recueil et aux finalités diverses : mesures d’ambiance et de pénibilité sur les lieux de travail (métrologie), enquêtes sur les expositions, données de sinistralité…. Le PST3 fixe dans son objectif n°10 l’ambition d’améliorer l’accessibilité et l’appropriation des données par les acteurs de terrain. A l’horizon 2020, toutes les régions devront disposer d’une méthodologie de regroupement des données permettant d’établir un diagnostic territorial opérationnel et de l’animer (action 3.13).

Dans ce contexte, l’ANSES (Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail) a réalisé une cartographie de l’ensemble des bases de données dans le domaine de la santé et de la sécurité au travail (action 3.10). Cette cartographie recense les bases de données existantes en matière de veille, d’expertise et de vigilance en santé travail. Les données de la cartographie sont disponibles sur le portail data.gouv.fr.

Représentation synthétique des données en santé au travail (source : rapport annuel GIS Atlast)

Dans ce contexte, Datactivist a animé un atelier s’appuyant sur les données de la cartographie lors du séminaire “diagnostic territorial et santé au travail, quelles pistes d’amélioration ?” qui s’est tenu le 27 février 2019 à la Direction Générale du Travail (DGT). Cet atelier visait à aider les participants à comprendre le contexte légal nouveau posé par la loi pour une République numérique, à débattre des enjeux liés à la granularité des données disponibles pour conduire des diagnostics territoriaux et à s’appuyer sur la cartographie des données réalisée par l’ANSES avec l’appui d’Etalab pour faciliter l’appropriation des données.

Une demande de données granulaires pour aller au plus proche des phénomènes

L’atelier a débuté par un rappel du cadre juridique de la loi pour une République numérique qui pose un principe d’ouverture des données par défaut qui concerne tous les administrations investies d’une mission de service public de plus de 50 agents (et 3500 habitants pour les collectivités territoriales). Pour le domaine de la santé au travail, c’est une opportunité pour disposer de données précises et localisées susceptibles d’enrichir les diagnostics santé au travail. Les données ouvertes sont réellement utilisables à condition d’abord que leur licence soit ouverte et qu’elles soient diffusées dans des formats ouverts non-propriétaires qui facilitent l’exploitation des données par les machines.

Deuxième condition : les données doivent être ouvertes avec le plus fort niveau de granularité, c’est-à-dire au niveau le plus précis possible avec le minimum d’agrégation. Selon les principes de l’open data, l’agrégation ne peut se justifier que pour préserver un des secrets protégés par la loi concernant le secret médical, la vie privée des individus, le secret défense, les règles de sécurité ou encore le secret industriel et commercial.

Exemple de cartographies des accidents du travail et le taux de fréquence à l’échelle de la zone d’emploi dans la région Hauts-de-France — Source : La santé au travail dans les Hauts-de-France, Atlas régional — Actualisation 2016.

Des données agrégées et des données granulaires peuvent faire passer des messages très différents. Les cartes ci-dessous réalisées par Datawrapper le montrent bien. L’évolution de la population y est représentée à quatre niveaux différents d’agrégation : communes, échelle européenne NUTS-3 (départements en France métropolitaine), échelle NUTS-2 (anciennes régions en France métropolitaine) et les pays. Les données racontent une toute autre histoire lorsqu’on affine leur granularité.

Compléter la cartographie pour apporter plus de lisibilité dans le paysage des données

Nous avons ensuite exploré les données contenues dans la cartographie des données de santé au travail. Cette dernière reprend le format de la cartographie des bases de données en santé réalisée en 2014 par Etalab qui montrait déjà des difficultés d’accès aux données granulaires. Une première analyse rapide montre que, parmi les 48 bases de données en santé au travail référencées, deux acteurs concentrent la moitié de l’accès aux données cartographiées : Santé Publique France pour 16 d’entre elles et l’INRS pour 13 d’entre elles. La cartographie révèle toutefois une longue traîne d’acteurs avec 20 points d’accès identifiés, autant d’interlocuteurs et de modalités à connaître pour les référents territoriaux devant réaliser un diagnostic.

Les participants se sont ensuite penchés sur le tableur contenant la cartographie des données de santé au travail et ont fait part de leurs retours sur l’outil en s’appuyant sur la méthode DAKI (Drop, Add, Keep, Improve) qui permet d’identifier ce qui doit être retiré, amélioré, conservé ou amélioré dans un produit. Les participants ont d’abord souligné qu’ils appréciaient le fait que la cartographie prenne la forme de données structurées ce qui permet de traiter rapidement les données pour produire par exemple un moteur de recherche comme nous l’avons fait ici à titre de démonstration.

Néanmoins, les données pourraient être retravaillées pour faciliter la compréhension des données. Le champ gestionnaire indique à la fois le point d’accès (Santé Publique France par exemple) et l’organisation qui gère les données (Équipe EpiCEnE Université de Bordeaux par exemple). Les participants ont aussi fait remonter que les différents types de producteurs de données devraient être indiqués clairement dans la carte (public, privé, organisation syndicale…). Il a été aussi demandé de préciser la fréquence de mise à jour des données et de distinguer les données d’enquêtes, de celles qui sont imputées d’autres données ou encore les méta-analyses. Les participants ont souhaité en savoir plus sur la taille de l’échantillon pour les données d’enquête et avoir une description plus précise des variables contenues dans chaque jeu de données. Enfin, la cartographie manque de liens vers les bases et les participants ont demandé à savoir pourquoi l’accès est restreint pour certaines bases de données. Toutes ces informations permettraient de mieux contextualiser les données et de faciliter la sélection des données utiles au diagnostic. Pour décrire les données, on pourra aussi utilement s’appuyer sur le modèle “Datasheet for Datasets” (traduit sur TeamOpenData) qui propose un modèle de description des données avec une série de questions types.

Des fonctionnalités sociales et une interface pour réduire les frictions de l’accès et de la réutilisation des données

Très vite, les propositions des participants ont dépassé le contenu des données pour évoquer les difficultés dans l’accès et la réutilisation des données. Plusieurs personnes ont demandé à pouvoir suggérer l’ajout de certaines données dans la cartographie qui a vocation à évoluer dans le temps et à s’étendre à d’autres bases pas encore recensées. Les participants ont aussi demandé de pouvoir voter pour faire remonter les données de santé au travail les plus utiles au diagnostic. La cartographie pourrait aussi permettre de faire émerger un espace de dialogue entre les référents pour développer l’entraide dans l’accès et la réutilisation des bases de données. Les participants pourraient aussi échanger leurs points de vigilance et éviter de perdre un temps inconsidéré à résoudre des problèmes déjà résolus par d’autres. Des solutions de forum comme Discourse peuvent permettre de soutenir ces discussions ; data.gouv.fr offre aussi des fonctionnalités sociales proches de la demande des participants.

Dataroom : inventaire des données du ministère de la transition écologique et solidaire et du ministère de la cohésion des territoires et de la relation avec les collectivités territoriales

Les participants ont aussi demandé le développement d’une interface pour explorer la cartographie comme le propose la Dataroom évoquée ci-dessus. Outre un moteur de recherche, des filtres interactifs faciliteraient grandement la lecture des fiches décrivant chaque jeu de données. Enfin, certains participants ont proposé que la cartographie soit déclinée en clusters thématiques voire sous la forme d’une carte mentale qui fait émerger des groupes de jeux de données. Toutes ces propositions forment un excellent matériau pour la formulation des défis posés aux participants du hackathon santé au travail prévu au quatrième trimestre 2019.

Plus largement, les retours de cet atelier posent une question importante pour la médiation des données. Les cartographies thématiques de données constituent un objet utile pour guider les réutilisateurs vers les bases de données au-delà des moteurs de recherche souvent imprécis des portails et des métadonnées peu documentées. Au-delà de leur rôle dans le repérage des bases de données existantes, elles peuvent servir de support dans le dialogue indispensable entre réutilisateurs de données et avec les administrations productrices de données.

--

--

Samuel Goëta
Datactivist

Co-founder @datactivi_st, researcher on #opendata, member @okfnfr @savoirscom1