Cette couverture représente les termes les plus fréquemment utilisés dans cet article, leurs relations et leur musicalité.

RGPD et visualisation de données : le design au service de la conformité

Dataveyes
Dataveyes Stories (VF)
13 min readJan 9, 2020

--

(An english version of this article is available here)

La visualisation de données peut être mise au service de la conformité au RGPD : pour améliorer les interfaces des services destinés au grand public, pour cartographier le paysage numérique des entreprises, et même pour aider à auditer les algorithmes. Pour cela elle doit être pratiquée dans une démarche d’amélioration des interactions entre humains et données. Voici notre retour d’expérience sur les usages et les bonnes pratiques.

Entré en vigueur le 25 mai 2018, le règlement général sur la protection des données (RGPD) a modifié les règles de gestion des données à caractère personnel dans les pays de l’Union européenne. L’objectif : apporter plus de transparence aux citoyens, renforcer leurs droits quant à l’utilisation de leurs données personnelles, et responsabiliser les différents acteurs en charge du traitement de ses données.

Le RGPD introduit des défis techniques, liés à l’anonymisation ou au stockage des données, mais aussi des défis design. Le design d’une interface influence en effet la capacité des utilisateurs à consentir à la collecte de leurs données : il peut aider les utilisateurs à faire des choix éclairés, ou bien, au contraire, détourner leur vigilance.

La visualisation de données est une composante du design d’interface. Elle traduit de façon visuelle et interactive les données, pour en faciliter la compréhension et la prise en main. En cela, elle a un rôle à jouer dans la mise en place de relations entre humains et données plus respectueuses des droits et des libertés des citoyens.

Le contexte y est favorable : six mois après la mise en application du RGPD, la CNIL a réalisé un sondage en partenariat avec l’Ifop. Bilan : sur 1 003 personnes interrogées entre le 30 et 31 octobre 2018, 46 % ont déjà constaté des abus dans l’utilisation de leurs données personnelles et 66 % se disaient plus sensibles qu’auparavant à la protection de leurs données personnelles.

1. Les usages de la visualisation de données pour la mise en conformité RGPD

1.1 Améliorer les interfaces consommatrices de données personnelles

Le RGPD responsabilise les acteurs de la collecte des données : à eux de mettre en place des modes de recueil des données personnelles qui ne piègent pas les utilisateurs, et les informe clairement des implications. Le règlement prévoit qu’une application ou un site web qui collecte des données personnelles doit, pour être conforme, mettre ses utilisateurs en capacité de donner leur « consentement éclairé » quant à l’usage de leurs données personnelles, ou bien de s’y opposer. Pour cela, les utilisateurs doivent comprendre ce qui est fait avec leurs données et d’où viennent les données qui leur sont présentées.

Avoir recours à la visualisation de données dans le design d’une application ou d’un site peut aider à atteindre cet objectif. En effet, lorsqu’ils sont confrontés à des mises en récit visuelles et interactives des données, les utilisateurs comprennent mieux l’information contenue dans ces données. Ils deviennent capable de s’approprier des concepts complexes. Les données leur apparaissent comme plus transparentes car elles sont désormais visibles, et plus faciles à appréhender.

Compagnon par Dataveyes : comprendre et maîtriser sa consommation électrique grâce aux données

Par exemple, nous avons travaillé sur un prototype d’application branchée sur les données d’un compteur intelligent de type Linky, et destiné à aider le grand public à mieux se saisir du suivi de sa consommation électrique. Nous sommes partis de commentaires entendus chez les habitants de nouveaux logements équipés avec des capteurs et des régulateurs électriques : impression de complexité, crainte de tout dérégler, sentiment de ne pas être capable, difficultés à lire les données, etc. Notre prototype résout ces problèmes avec différents leviers du design d’interactions humains données : des visualisations facilitant le suivi de la consommation dans le temps, une approche centrée sur les notifications, un système de gamification via des badges récompensant les utilisateurs, ou encore une comparaison avec la consommation du quartier selon le principe des « green nudges ». Là où l’approche de Linky consiste à fournir peu d’informations à l’utilisateur final, en ne lui donnant accès ni à ses données brutes, ni à des graphes vraiment utiles, nous voulions montrer comment “encapaciter” les citoyens grâce au design.

Un simulateur pédagogique pour faire comprendre la flexibilité énergétique par Dataveyes

Un autre de nos projets a consisté à construire une maquette pédagogique pour faire comprendre le concept de flexibilité énergétique en utilisant des données issues de capteurs déployés dans des maisons « tests ». Nous proposons à l’utilisateur de visualiser les données sous la forme d’une horloge, et nous l’amenons à interagir avec le système de régulation domestique en expérimentant différents scénarios. De cette façon, nous facilitons sa compréhension du système complexe de régulation électrique, et nous rendons ce système plus transparent.

Ainsi, l’application du RGPD représente autant une injonction qu’une opportunité : celle de construire de meilleurs dispositifs de médiation entre les utilisateurs et les données.

1.2 Cartographier les données collectées

La visualisation de données peut aussi aider à prendre conscience de l’ampleur des données collectées.

Pour le grand public, d’une part : l’image forte pouvant se dégager d’une visualisation de données est très efficace pour rendre l’utilisateur plus conscient des données qu’il partage. Les projets Behind the banner de OCR pour Adobe, Lighbeam de Mozilla ou CookiesViz de la CNIL sont de bons exemples : ils expliquent le processus de ciblage publicitaire en ligne grâce au storytelling des données, et poussent les citoyens à s’y intéresser.

Behind the Banner par OCR : une expérience de visualisation de données pour expliquer le ciblage publicitaire

Pour les entreprises qui collectent des données personnelles d’autres part : elles sont désormais obligées de se faire une idée précise de l’ensemble de leurs bases de données et de leurs traitements pour vérifier leur conformité au RGPD et mener des analyses d’impact. Des outils de visualisation peuvent les y aider, comme Datagalaxy ou Datawizz. Ces outils cataloguent et cartographient les données de l’entreprise de façon parlante, sous la forme de treemaps ou de graphe sociaux. Ils contribuent à une meilleure vision des données, une meilleure capacité à les référencer, et une meilleure gouvernance. Des objectifs difficiles à atteindre en se reposant uniquement sur de longues et fastidieuses documentations techniques, là où la visualisation de données introduit un langage visuel compris par tous les membres de l’entreprise.

1.3 Rendre auditable les algorithmes de traitement des données

Enfin, la visualisation de données peut être un outil précieux pour auditer les algorithmes de traitement des données et s’assurer qu’ils sont conformes au RGPD. Notamment lorsque ces algorithmes mobilisent de l’apprentissage automatique (machine learning), ils peuvent être tellement complexes que se contenter de lire leur code ne suffit plus à bien les comprendre. Même pour les data scientists qui les implémentent, ces algorithmes font parfois figure de “boîtes noires”, pouvant amener des biais, jusqu’à aboutir, parfois, à des discriminations. Par exemple, les algorithmes de yield management, utilisés dans les systèmes de tarification dynamique, mobilisent de nombreux paramètres, y compris des données personnelles comme votre code postal, pour optimiser les ventes de produits ou services.

La visualisation de données peut ici être utilisée pour rendre tangibles la façon dont fonctionnent ces algorithmes, ce qu’ils produisent comme résultat, ce qu’ils “font” aux données, et contribuer ainsi à en repérer les biais.

Affinity Index par Dataveyes : rendre plus lisible le fonctionnement des algorithmes d’Outbrain.

Nous avons réalisé un tel exemple d’outil visuel à l’occasion du projet « Affinity Index », créé pour le spécialiste de la recommandation de contenus sponsorisés Outbrain. Ce projet avait comme ambition de rendre lisible le comportement d’algorithmes perçus comme opaques : ceux qui positionnent les articles sponsorisés dans un inventaire d’espaces disponibles selon les affinités du lecteur. Nous avons visualisé les résultats collectés au cours d’une année de fonctionnement des algorithmes, et nous avons rendu visible, grâce à des bulles colorées, la dynamique des recommandations.

2. Design d’interaction humains-données et bonnes pratiques pour le RGPD

2.1 Adopter une méthode de conception itérative et centrée sur les utilisateurs

Au delà de ces différents cas d’usage de la visualisation de données, certaines pratiques du design des interactions humains données peuvent contribuer à un meilleur respect des ambitions du RGPD.

Adopter une méthode de conception centrée sur les utilisateurs, par exemple, comme le design thinking, aide à créer des projets conforme au RGPD en se préoccupant dès le début de leur réception par les utilisateurs finaux. Une pratique qui va de pair avec le concept de protection des données dès la conception et par défaut (« privacy by design ») introduit par le RGPD. Ainsi, nous recommandons d’adopter une approche itérative, guidée par des tests à petite échelle, des prototypes, et le recueil de premières impressions. Cela permet de vérifier, par exemple, que le fait de présenter ensemble certains jeux de données ne pose pas de problème de confidentialité, ou bien que le service finalement proposé à l’utilisateur est compris, et apporte de la valeur. Mettre le produit dans les mains des utilisateurs dès le départ incite à vérifier que le projet suscite leur confiance et leur adhésion.

Travailler avec les données dès le début des projets, et prototyper les modes de visualisation, est tout aussi important. Cela permet de se rendre compte concrètement de la manière dont se comportent les données. En testant plusieurs façons de visualiser, il est aussi possible d’identifier laquelle induit le moins de biais et met le mieux en valeur les informations utiles aux utilisateurs.

Enfin, nous recommandons une approche modulaire et itérative des projets, pour qu’ils restent faciles à faire évoluer, car le consentement des utilisateurs est susceptible d’évoluer dans le temps.

Cartographie des carrières par Dataveyes : un outil de visualisation des données RH au service des salariés

Grâce à cette méthode, nous avons par exemple conçu un outil RH pour qu’il soit au service des salariés d’une entreprise. À partir des données de fiches de poste et de mobilité interne nous avons créé un outil qui agrège tous les parcours individuels et structure cette information pour visualiser les « chemins » suivis par les employés, d’un poste à l’autre, dans l’entreprise. Là où les outils de reporting RH sont souvent de simple dashboard avec quelques indicateurs statistiques généraux, nous avons réalisé un outil d’orientation professionnelle au service des salariés. L’outil montre, sans filtre RH, ce qui leur est possible de faire dans l’entreprise, apportant ainsi plus de transparence.

2.2. Rendre justifié, progressif et contournable le partage de données

Tout se joue au moment de la collecte des données personnelles et du recueil du consentement de l’utilisateur. En pratique, l’utilisateur échange des données personnelles contre un service. Dès la conception du produit, il faut donc le mettre en capacité d’évaluer si cet échange est gagnant-gagnant… ou non.

Une bonne pratique, lorsqu’il est demandé à l’utilisateur de renseigner ou d’autoriser l’accès à une information, telle son adresse ou sa géolocalisation, consiste à expliquer à l’utilisateur non seulement à quoi va servir cette information, mais aussi ce qu’il perd s’il ne consent pas à sa collecte. Par exemple, sans géolocalisation, son agenda ne lui enverra pas de rappel au moment de partir à son rendez-vous, et sans enregistrement de son historique de lecture, il n’aura pas de suggestions personnalisées à la suite d’une vidéo. L’utilisateur est ainsi mieux en mesure d’évaluer la gravité, parfois toute relative, d’un refus du partage de ses données.

Permettre un engagement progressif de l’utilisateur dans le partage de ces données est une autre bonne pratique : ne demander à l’utilisateur ses données que lorsque cela est indispensable à l’expérience utilisateur, et pas avant. Trop souvent, le partage de données personnelles est un préalable à l’utilisation d’un nouveau service : c’est tout ou rien. Cela va logiquement avec l’exigence du RGPD de ne collecter que les données utiles, au regard de la finalité du traitement.

Cela suppose aussi que l’application puisse fonctionner en mode “dégradé”, sans certaines fonctionnalités nécessitant l’accès aux données de l’utilisateur. Par exemple, il est tout à fait possible d’utiliser une application de cartographie sans avoir partagé sa localisation : les fonctionnalités de calcul d’itinéraire ne seront peut-être pas disponibles, mais cela n’empêche pas de faire une recherche de lieu. Une pratique respectueuse de la “privacy” consiste donc à concevoir des application avec un socle minimum de fonctionnalités qui ne nécessitent aucun partage de données, et des fonctionnalités avancées reposant sur le partage de données personnelles.

Ainsi, lorsque nous avons réalisé le projet “Crea Carte” pour la Société Générale en 2015, nous avions déjà ces bonnes pratiques en tête. Crea Carte était un concours sur le thème de l’art génératif. Les participants étaient invités à créer un motif esthétique à partir de données. L’utilisateur pouvait soumettre son motif au jury du concours pour tenter de gagner un prix, ou bien tout simplement l’ajouter à la galerie collaborative pour qu’il contribue à l’expérience artistique collective. Dans le parcours utilisateur, les coordonnées du participant ne lui étaient demandées que s’il souhaitait adresser sa création au jury. Toutes les autres fonctionnalités, représentant la majeure partie de l’expérience, étaient utilisables en tout anonymat. Quant aux données servant de base au motif esthétique, nous avons veillé à ce qu’elles ne soient pas intrusives : il s’agit des coordonnées spatiales décrivant un geste.

Un exemple d‘engagement progressif de l’utilisateur au sein de l’expérience “Créa Carte par Dataveyes

2.3. Faire comprendre la provenance des données

Concevoir une application respectant les droits des utilisateurs et leur apportant de la valeur ne suffit pas toujours à une bonne médiation entre humains et données. Il est aussi utile que les utilisateurs comprennent comment sont utilisées les données, pour pouvoir, éventuellement, re-questionner leur consentement. Tous n’ont pas une bonne connaissance du fonctionnement technique de plateformes comme Google ou Facebook, qui peut s’apparenter parfois à de la magie, et entraîner de la défiance.

Afin d’y remédier, nous recommandons de rendre explicite la provenance des données, dans tous les projets, même lorsqu’il ne s’agit pas de données personnelles. Cela peut se faire en donnant accès à un paragraphe ou une page décrivant la méthodologie de collecte et de traitement des données. Des points d’interrogation avec des fenêtres d’informations (ou tooltips) représentent une autre option pour afficher l’origine des données sans alourdir l’interface.

Mettre en contexte les données présentées aide aussi à comprendre leur origine. Rappeler le nombre de personnes interrogées dans un sondage, la date à laquelle leur opinion a été recueillie et la question exacte à laquelle ils ont répondu, par exemple. Ou bien préciser lorsque les données font l’objet d’un retraitement par un algorithme de détection de sentiment ou d’identification de termes, comme cela peut-être le cas avec l’analyse de contenus postés sur les réseaux sociaux.

L’idéal enfin est de rendre accessibles en open data les données sources lorsque cela ne pose pas de problème de confidentialité, car cela contribue à la transparence des données, et offre aux utilisateurs plus d’opportunités de critiquer l’usage qui en est fait.

2.4 Miser sur l’intelligence de l’utilisateur

Reste enfin à s’assurer que l’utilisateur est conscient des informations tirées des données qu’il partage. Notre parti pris est toujours de considérer que l’utilisateur est capable de comprendre des informations compliquées si elles lui sont clairement expliquées, plutôt que de supposer que l’information riche ne l’intéresse pas, ou lui est inabordable.

Ainsi, nous privilégions les modes de visualisation de données qui rendent les données tangibles et leur confèrent des propriétés physiques, car cela facilite leur appréhension par les utilisateurs. Trop souvent, le réflexe des designers consiste à simplifier les données, pour ne pas faire peur, en utilisant des scores sur 10 simplifiés, des indicateurs composites plus faciles à afficher. Ces “KPIs” ou “gros chiffres clés”, se comportent pourtant comme des boîtes noires pour les utilisateurs : ils n’ont pas d’unité parlante, ils sont souvent coupés de tout contexte d’analyse, et agrègent de trop nombreuses dimensions pour qu’il soit facile d’interpréter leur variation. Dans ces conditions, il est difficile de savoir quelles sont les données personnelles sous-jacentes utilisées et si ça valait le coup de les partager.

Nous recommandons d’exprimer le plus souvent possible les données dans des unités parlantes : de parler, par exemple, d’un nombre de personnes plutôt que d’afficher un pourcentage. De parler de “chances” d’appartenir à chaque catégorie, plutôt que d’imposer à l’utilisateur un verdict unique.

Transparence, finalité, pertinence… Si tous les ingrédients sont réunis, il est possible que les utilisateurs confient volontairement leurs données personnelles. Pour servir leur intérêt individuel, bien sûr… et même pour servir des projets collectifs. Le partage de ses données individuelles peut sortir de la relation entre plateformes de services numériques et consommateurs, pour s’inscrire dans une démarche volontaire et citoyenne. C’est déjà le cas avec certaines applications de quantified self où le partage de son trajet en voiture, la mise en commun de capteurs de pollution individuels, ou de mesures de volume sonores, permettent de mieux documenter les villes, et de donner aux citoyens de nouveaux leviers d’action.

En résumé : les bonnes pratiques du design d’interactions humain-données en conformité avec le RGPD (encadré)

  1. Concevoir les projets par itération, en prototypant, avec une approche centrée sur les utilisateurs finaux.
  2. Décrire la méthodologie de collecte et de traitement des données, donner accès aux données sources.
  3. Rendre le partage de données personnelles progressif, désirable et justifié : cela doit être du donnant — donnant.
  4. Visualiser, rendre tangibles et interprétables les données.
  5. Utiliser des unités parlantes, éviter les indicateurs composites “boîtes noires”.

Trois exemples de projets conçus dans un usage raisonné des données personnelles

Mon quartier

Si la collecte de données à l’échelle individuelle est parfois nécessaire, leur visualisation ne l’est pas forcément. Dans le projet « Mon quartier », réalisé pour le groupe immobilier Nexity, Dataveyes a recueilli des localisations précises de lieux fréquentés par un échantillon d’habitants, mais l’application n’affiche que des zones de densité ou des distances. Ce n’est pas une géolocalisation précise mais l’accessibilité des services sur le territoire qui a de la valeur pour l’utilisateur final.

Mon Quartier par Dataveyes : une application pour découvrir un quartier

Scope Santé

Ce site web rassemble des informations afin d’aider le grand public à s’orienter dans l’offre des établissements de santé. Le parti-pris consiste à déduire quelles sont les informations pertinentes pour l’utilisateur à partir de son comportement sur le site, sans lui demander de renseigner son profil (Facebook connect, formulaire, récupération de cookies) quant à sa situation médicale. Par exemple, l’utilisateur ayant effectué une recherche d’hôpital avec un filtre « urgences pédiatriques » obtiendra des informations plus ciblées sur la pédiatrie, sans qu’à aucun moment le site l’ait identifié ou lui ai demandé des données personnelles.

Scope Santé par Dataveyes : un service pour aider chaque patient à trouver le meilleur hôpital

Commute

Les données d’entrée de ces deux projets expérimentaux sont des captations audio réalisées lorsque l’utilisateur se déplace dans la ville pour analyser les nuisances sonores auxquelles il est exposé. Ces projets pourraient être très intrusifs, sauf que le signal audio n’est pas stocké tel quel mais est immédiatement convertis en données de fréquence, volume, tonalité, etc. De la sorte, il est impossible d’écouter ce qui a été dit ou de retrouver les lieux parcourus lors des trajets.

Commute par Dataveyes : une application de sonification des données de transport quotidien

--

--