L’anonymisation de données, une quête encore difficile au lendemain de l’entrée en vigueur du RGPD

Published in

Meetech - We Love Tech

11 min readJul 26, 2018

Les cas d’utilisation des données personnelles sont très divers mais bon nombre d’entre eux ne nécessitent pas l’exactitude de certaines données identifiantes, comme les coordonnées, le nom ou le prénom. Il en va ainsi par exemple de l’analyse statistique des données, à des fins de ciblage ou d’étude marketing, de recherche, ou encore de l’utilisation des données pour des tests applicatifs. Les entreprises se sont donc tournées depuis plusieurs années déjà vers des solutions d’anonymisation afin d’ôter aux données leur caractère identifiant, tout en préservant leurs signifiance et cohérence. C’est dans ce contexte que l’entrée en vigueur du RGPD vient considérablement accroître la pression sur la sécurité des données personnelles et la demande autour de ces solutions. La mise en place d’un système d’anonymisation de données présente certaines difficultés et limites qu’il est important d’avoir en tête avant de se lancer dans un tel projet, nous proposons donc à travers cet article de les décrypter.

L’anonymisation, enjeux, difficultés, et limites

On confond souvent l’anonymisation, la pseudonymisation, le chiffrement… Or ces techniques sont bien distinctes et interviennent dans des cas de figure très différents. Le chiffrement et la pseudonymisation sont des transformations réversibles, qui permettent de protéger les données en les rendant partiellement ou totalement illisibles, la transformation inverse étant possible grâce à une clé de déchiffrement ou à une table pivot (d’accès très restreint) dans le cas de la pseudonymisation.¹

Soustraire des données au périmètre du RGPD en les anonymisant

Au contraire, le fait d’anonymiser des données consiste à leur appliquer une série de transformations irréversibles, sur un seul ou plusieurs enregistrements, qui rendent l’identification d’un individu impossible. Le plus souvent ces transformations permettent également de conserver une signifiance métier des données, afin qu’elles restent encore exploitables, notamment pour des analyses statistiques (par exemple à des fins marketing), ou encore pour des tests dans le cycle de développement logiciel (environnements hors production : tests unitaires, intégration, qualification, recette).

Figure 1 / Exemple d’anonymisation sur 4 colonnes, où sont appliquées les techniques : dictionnaire sur nom et prénom, floutage (variation aléatoire conservant la moyenne) sur l’âge, permutation sur les codes postaux. Ainsi les données sont utilisables pour des tests applicatifs (signifiance métier conservée) et pour certaines analyses statistiques (distribution conservée).

L’anonymisation n’est pas imposée par le RGPD !

Le RGPD indique que toute donnée anonyme, c’est-à-dire dont la personne n’est plus identifiable, n’est pas soumise au règlement.²

Répondre aux demandes d’effacement

En cas de demande d’effacement, si la société ne peut pas effacer physiquement la donnée, cet effacement peut être remplacé par une pseudonymisation définitive (donnée unique, comme le numéro de téléphone, remplacée par exemple par « ***** »). Si la société souhaite conserver la donnée à des fins d’analyse statistique ou de test, l’effacement peut être remplacé par une anonymisation. Ce dernier cas s’applique nécessairement à l’intégralité d’un enregistrement (plutôt qu’une seule donnée, comme par exemple le numéro de téléphone), étant donné que, par définition, il faut que l’individu ne soit plus identifiable pour que les données soient considérées comme anonymes.

Le risque de réidentification : difficulté majeure de l’anonymisation

L’anonymisation n’est jamais garantie ou absolue. Il faut notamment tenir compte du risque de réidentification résiduel, car en analysant les données, et éventuellement en les croisant avec des données externes à l’entreprise, un attaquant pourra peut-être retrouver avec une certaine probabilité l’identité d’une personne. Ce risque existera toujours et il faut le mesurer.

Un groupe de travail de la Commission Européenne, baptisé G29, a publié en 2014 un avis³ proposant, en alternative à une estimation stricto sensu du risque de réidentification, 3 critères pour évaluer la qualité d’une anonymisation :

L’individualisation : est-il possible d’isoler un individu ?
La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
L’inférence : est-il possible de déduire de l’information sur un individu à partir des données disponibles ?

« Ainsi, un ensemble de données pour lequel il n’est possible ni d’individualiser ni de corréler ni d’inférer est a priori anonyme » ; réciproquement, « un ensemble de données pour lequel au moins un des trois critères n’est pas respecté ne pourra être considéré comme anonyme qu’à la suite d’une analyse détaillée des risques de réidentification ».⁴

Malgré cette simplification apportée par le G29, le travail d’estimation du risque de réidentification selon ces trois critères reste très difficile pour la plupart des sociétés, étant donné qu’il nécessite un mélange de maîtrise de l’environnement métier, de connaissances techniques, de connaissances sur la théorie de l’information et sur la cybersécurité en général, notamment pour tenir compte de tous les risques externes à l’entreprise. Pour ce dernier cas, on citera par exemple les cas de données personnelles qui sont disponibles publiquement, et qu’un attaquant peut se procurer facilement et croiser avec des données dérobées à l’entreprise : par cet enrichissement, des données à priori anodines deviennent plus facilement exploitables.⁵

Il semble donc pertinent d’attendre des solutions du marché qu’elles proposent, outre l’anonymisation des bases, également des mécaniques d’estimation du risque de réidentification résiduel sur ces jeux de données anonymisés, étape obligatoire pour l’entreprise, offrant ainsi un service complet de bout en bout. En attendant, les entreprises devraient par elles-mêmes mettre en places une mesure du risque de réidentification, sinon quantitative, du moins qualitative, par exemple par une approche « attaquant », en imaginant les contextes, très dépendants de l’entreprise et du jeu de données concerné, dans lesquels leurs données pourraient être la cible d’une tentative de réidentification.

Un marché technologique en cours de maturation

Les solutions dominant actuellement le marché restent sans surprise les mastodontes du Data Management, à savoir IBM, Informatica et Oracle.⁶ ⁷ Selon une étude Gartner de 2015, ils ont raflé avec HPE en 2015 75% du chiffre d’affaires mondial sur le marché du data masking (anonymisation mais aussi pseudonymisation à la volée).⁸ Au lendemain de l’entrée en vigueur de la réglementation, notre vision du marché des solutions d’anonymisation met à l’évidence que la situation a peu évolué depuis trois ans. Or il faut ajouter à cela que Gartner base ses analyses sur un périmètre mondial ; sur un marché français, le nombre d’acteurs capables d’intervenir est considérablement réduit, étant donné que beaucoup de challengers sont américains ou en tout cas étrangers et sont trop petits pour répondre à des appels d’offre conséquents en France.

Ces solutions leaders étant relativement coûteuses, il est également pertinent de solliciter les challengers (des éditeurs comme Solix, Delphix, Camouflage, Compuware, Mentis…), qui peuvent offrir la plupart des fonctionnalités indispensables, et une bonne partie des fonctionnalités secondaires (industrialisation, orchestration, discovery, richesse des connecteurs…), pour un prix parfois nettement inférieur.

Des leaders du marché qui ont su capitaliser sur leur offre historique en matière de data management

En termes de technologie, les acteurs dominants ont réussi à proposer assez rapidement des solutions d’anonymisation en capitalisant sur leurs produits classiques et éprouvés de manipulation de la donnée, dans les domaines ETL (Informatica base sa solution sur PowerCenter), data management et DBMS (IBM a enrichi Infosphere Optim et Oracle fait tout simplement exécuter ses algorithmes sur les moteurs PL/SQL de ses bases de données, les flux étant gérés par ODI).

Des solutions encore trop tournées vers un public IT et non métier

Les solutions disponibles aujourd’hui sont encore relativement lourdes à mettre en place en termes d’installation, notamment pour des problématiques de connexion aux sources et d’exploration de ces dernières (ingestion des métamodèles, détection des données…). Cela peut encore se comprendre, mais une fois la phase d’installation passée, l’on pourrait souhaiter que les solutions soient utilisables par des Data Owners, c’est-à-dire des profils plutôt fonctionnels, éventuellement MOA, qui connaissent la donnée métier et qui savent déterminer où se situent les risques.

Pourtant les schémas d’anonymisation proposés en standard sont encore assez simples, et la conception de schémas avancés nécessite souvent des compétences techniques et une capacité à écrire du code, parfois spécifique à l’outil.

Une rareté des ressources

Cela vient mettre en exergue un autre problème qui est celui des ressources. Aujourd’hui, les ressources capables de concevoir des schémas d’anonymisation, même relativement simples, mais efficaces, sont rares, que ce soit à l’embauche ou chez les intégrateurs. Or étant donné que les solutions du marché ne proposent pas aujourd’hui des systèmes d’aide à la conception suffisamment avancés, ces ressources sont indispensables au bon paramétrage des solutions, afin d’avoir une anonymisation efficace, qui tienne compte des modèles de données, des distributions des valeurs, du contexte de l’entreprise et du risque de réidentification.

Les principaux points d’achoppement du marché des solutions d’anonymisation de données sont donc aujourd’hui :

la concentration du marché en France : 3 acteurs réellement capables de répondre sur des contextes volumineux et complexes, les leaders du marché data ;
un réel manque fonctionnel autour du risque de réidentification, épine dans le pied de tout projet d’anonymisation de données qui doit rendre compte au régulateur ;
l’orientation encore technique des solutions, qui ne permettent pas aujourd’hui une prise en main facile par les métiers sur des schémas d’anonymisation qui sortent des cas les plus simples ;
une rareté des ressources compétentes en la matière, étant donné que les solutions sont encore trop complexes pour être manipulées par des utilisateurs non expérimentés.

Dans le choix entre l’intégration d’un outil et un développement interne, outre les enjeux classiques de maintenabilité, complexité des développements, maintien des compétences, etc., il faut donc prendre en compte ces 4 éléments contextuels. Dans certains cas de test applicatif, l’on pourra même être amené à opter pour la génération de données from scratch, si l’on juge que les risques et les coûts induits par l’anonymisation sont trop élevés par rapport au gain apporté par l’utilisation de données de production.

Les enjeux des années à venir

Nous avons vu que l’une des principales difficultés de l’anonymisation réside dans la conception de schémas efficaces et dans l’évaluation du risque de réidentification.

Des méthodes algorithmiques avancées pour une évaluation du risque de réidentification

Des instituts de recherche⁹ et même certaines sociétés¹⁰ se sont penchés sur des solutions mathématiques d’estimation de ce risque pouvant potentiellement aboutir à des systèmes d’évaluation automatiques. En considérant le nombre de facteurs à prendre en compte (facteurs internes et externes à l’entreprise), la richesse des modèles de données et la complexité des algorithmes d’anonymisation, il va de soi que des méthodes algorithmiques avancées sont nécessaires à une évaluation efficace du risque de réidentification car il est pratiquement impossible de faire cette évaluation à la main et au cas par cas. Ces sujets de recherche sont toutefois aujourd’hui encore loin d’avoir abouti à une solution exploitable et industrialisable. En effet, les seules solutions aujourd’hui commercialisées se basent uniquement sur des analyses statistiques très théoriques, se basant uniquement sur le jeu de données et non sur le contexte, et produisant des indicateurs difficiles à interpréter opérationnellement.

Intégrer intelligemment l’anonymisation aux systèmes big data et open data

Aujourd’hui, la plupart des entreprises se dotent de lacs de données dans lesquels la donnée brute est déversée, sans présager des usages qui en seront faits. Or la maîtrise des données personnelles dans ce contexte est primordiale, notamment pour répondre aux demandes d’effacement de la part des clients. Ce sujet se fait d’ailleurs encore plus critique dans le contexte de plus en plus répandu de l’open data.

Nous avons vu plus haut que pour gérer les demandes d’oubli d’un individu, il est possible d’anonymiser ses données. Toutefois, même dans des bases destinées à des usages d’analyse statistique ou de test, il est délicat de mélanger, dans une même base, des données vraies, correspondant à de vrais individus, à des données fausses, c’est-à-dire résultant d’une anonymisation et ne correspondant à personne. De plus, le fait de devoir rechercher et effacer la donnée d’un individu dans plusieurs bases et dans plusieurs environnements suite à une demande d’effacement peut se révéler complexe et risqué, si l’effacement n’est pas exhaustif et que des données sont oubliées.

Ainsi, étant donné que dans ces bases il n’est pas nécessaire d’avoir une véracité individuelle de chaque enregistrement, mais une représentativité globale, fonctionnelle, technique ou statistique, le système suivant constituerait une implémentation pertinente de l’anonymisation, permettant de concentrer les efforts de protection et les processus d’exercice des droits sur les environnements opérationnels.

Figure 2 / Schéma d’implémentation d’une solution d’anonymisation permettant de prendre en compte efficacement les demande d’effacement de données

Est-il possible de certifier les solutions ?

Les entreprises empruntant la voie de l’anonymisation des données se posent légitimement la question suivante : « Comment m’assurer et garantir que mon anonymisation est efficace et que je ne paierai pas d’amende ? ». Les entreprises expriment donc le besoin d’une certification garantissant la validité des techniques d’anonymisation employées et l’anonymité des jeux de données produits.

De l’autre côté le RGPD recommande la création de certifications attestant la conformité des entreprises.¹¹

La CNIL s’est donc saisie du sujet, suite à quoi deux pistes de certification se dégagent :

Certification des solutions d’anonymisation (logiciels). L’on certifierait dans ce cas les capacités d’une solution à répondre aux exigences et à fournir toutes les techniques de l’état de l’art permettant d’anonymiser correctement un jeu de données. Toutefois, rien ne garantit qu’elles seront correctement appliquées par l’entreprise, ce qui, comme on l’a vu, représente la principale difficulté.
Certification des entreprises, donc des systèmes et processus mis en place pour garantir l’anonymité des données. Cette certification irait dans le sens de ce qui est recommandé par le RGPD, à savoir la création de certifications attestant la conformité au RGPD d’une entreprise de manière générale. Le problème est qu’une telle certification portant sur les processus et les systèmes mis en place par l’entreprise ne pourrait pas empêcher que, en cas de faille avérée, ladite entreprise ait à payer une amende.

On constate donc que dans les deux cas les certifications couvrent des techniques et des processus, et non le résultat de l’anonymisation des jeux de données, ce qui ne garantit pas d’être à l’abri d’une faille et donc d’une éventuelle amende.

L’entrée en vigueur du RGPD est venue accroître l’intérêt des entreprises pour les solutions d’anonymisation. Toutefois, la maîtrise des risques, des enjeux et des techniques d’anonymisation par les entreprises est essentielle à leur correcte utilisation et donc à l’efficacité du procédé. De plus, les solutions restent à ce jour difficiles à prendre en main. Ainsi, la maîtrise des compétences fonctionnelles et techniques autour de l’anonymisation par les entreprises elles-mêmes est aujourd’hui essentielle pour garantir une anonymisation des données qui satisfasse le régulateur et qui mette l’entreprise à l’abri des amendes.

[1] Voir pour plus de détails notre précédent article : Foresto, G. (18/06/2018). « 3 idées reçues sur le RGPD / #2 : Le RGPD impose d’anonymiser les données ». Disponible à l’adresse : https://www.riskinsight-wavestone.com/2018/06/3-idees-recues-sur-les-obligations-du-rgpd-23/, consultée le 22/06/2018

[2] RGPD, Considérant 26

[3] Groupe de travail « Article 29 » sur la protection des données (10/04/2014). « Avis 05/2014 sur les Techniques d’anonymisation. » Disponible à l’adresse : https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr_0.pdf, consultée le 30/08/2018

[4] Voir la synthèse : CNIL (16/04/2014). « Le G29 publie un avis sur les techniques d’anonymisation ». Disponible à l’adresse : https://www.cnil.fr/fr/le-g29-publie-un-avis-sur-les-techniques-danonymisation-0, consultée le 02/03/2018

[5] Exemple d’une attaque à des fins journalistiques : Oberhaus, D. (11/08/2017). « Votre historique de navigation privée n’est pas vraiment privé ». Disponible à l’adresse : https://motherboard.vice.com/fr/article/wjj8e5/votre-historique-de-navigation-privee-nest-pas-vraiment-prive, consultée le 08/01/2018 — ou de recherche : Narayanan, A.; Shmatikov, V. (22 November 2007). « How To Break Anonymity of the Netflix Prize Dataset ». Disponible à l’adresse : https://arxiv.org/abs/cs/0610105, consultée le 26/07/2018

[6] Gartner, (22/12/2015). « Magic Quadrant for Data Masking Technology, Worldwide »

[7] Benchmarks internes Wavestone, 2017 et 2018

[8] Gartner (06/02/2017). « Market Guide for Data Masking »

[9] Exemples : Télécom SudParis, le CAPPRIS

[10] Exemples : ARX Deidentifier, par une approche basée sur des profils d’attaquants ; PrivacyEval, par la quantification des 3 critères du G29 (cf. supra)

[11] RGPD, Article 42, portant sur la certification des sociétés sur leur conformité avec le RGPD de manière générale