La confidentialité différentielle en bref

Comment conjuguer l’apprentissage par la donnée et le respect de la vie privée ?

Florent Morin
Morin Innovation
4 min readMar 10, 2019

--

En Europe, on ne rigole plus avec les données personnelles

Ce sujet avait déjà été évoqué dans un précédent article de début 2018.

L’apprentissage automatique offre de nouvelles opportunités de marché. En parallèle d’un besoin grandissant du respect de la vie privée.

La confidentialité différentielle fait partie des outils à disposition pour résoudre ce problème.

L’analyse des données version 2000-2010

Il y a plus de 10 ans, le Big Data commençait à faire parler de lui.

Partout, on nous disait qu’il fallait avoir un maximum de données sur tout et tout le monde. Sans savoir vraiment pourquoi.

C’est là que les données ont commencé à s’accumuler, fournissant une matière première abondante.

Le recueil des données était une opération bête et méchante : on mettait des indicateurs partout et n’importe comment, pourvu qu’on récupère de la données.

Le problème

Il n’y avait aucun soucis pour les données météorologiques ou sismiques.

Par contre, pour les données personnelles, ça commençait à coincer. Au début, les utilisateurs disaient simplement “Je n’ai rien à cacher”. Puis, Facebook leur a permis de découvrir que ces données pouvaient être utiliser pour influencer leurs choix politiques.

Dès lors, les utilisateurs sont devenus méfiants. Et le législateur également.

2016 : annonce de la GDPR

Le règlement général sur la protection des données a été annoncé mi-2016 afin de protéger les données personnelles des citoyens européens.

Sa mise en place effective a eu lieu mi-2018 et a obligé les entreprises à considérer sérieusement la vie personnelle de leurs utilisateurs.

Après les condamnations de Google, Bouygues et Optical Center à de fortes amendes, le problème a commencé à être pris au sérieux.

Au point que ce règlement a commencé à intéresser des pays hors-UE.

La confidentialité différentielle à la rescousse

Le premier acteur du mobile à s’être emparé du sujet est Apple, qui a partagé ses travaux dès 2017. Puis il a été récemment suivi par Google, qui l’a officiellement intégré à sa solution de Machine Learning TensorFlow.

Mais qu’est-ce donc ?

Le principe est très simple à comprendre et à mettre en oeuvre.

Plutôt que d’envoyer une donnée exacte aux serveurs, il s’agit d’envoyer une donnée fausse et de préférence dans un contexte anonyme.

Cette donnée fausse vient du fait que plutôt que d’envoyer la bonne donnée, on envoie la bonne donnée parmi un ensemble de fausses données. L’information est ainsi brouillée. Les fausses données étant choisies aléatoirement.

Et c’est là que la magie mathématique opère. Une fois ces données réunie, il s’agit de faire une moyenne de l’ensemble des valeurs.

Les données qui ont la plus grande différence avec la moyenne sont les données significatives.

Un exemple

Il s’agit de l’exemple donné par Apple. Ce procédé est utilisé pour connaître les emojis les plus utilisés.

Apple sait, au sein de l’appareil, quel est l’emoji le plus utilisé. Tout ce qui se passe au sein de l’appareil ne pose aucun soucis de confidentialité.

L’emoji le plus utilisé est sélectionné. Puis Apple ajoute 4 autres emojis sélectionnés aléatoirement. Et envoie les 5 données.

Il y a aussi des envois de données complètement fausses, sans la bonne donnée.

De manière isolée, on ne peut pas savoir quel est l’emojis préféré de l’utilisateur.

Par contre, au sein de l’ensemble des données, on sait faire une moyenne. Les emojis qui sortent du lot sont les préférés des utilisateurs.

L’information est fiable et la confidentialité respectée.

Un premier pas vers 2020

L’ancien modèle est clairement obsolète : les obligations de la GDPR rendent les données moins fiables. Il s’agit donc d’être plus malin dans la gestion des données pour se focaliser en premier lieu sur l’objectif à atteindre.

La confidentialité différentielle est une première réponse.

Mais l’avenir (très proche) est ailleurs : les premiers smartphones intégrant du Machine Learning sont déjà sur le marché. Il s’agit maintenant d’exploiter toutes leurs capacités.

C’est une prédiction plus qu’une certitude, mais il y a de très bonnes chances pour que demain les traitements de Machine Learning soient effectués directement sur le mobile.

Il ne s’agit plus de tout savoir sur l’utilisateur. Il s’agit de traiter ses données directement sur son smartphone pour lui offrir directement le service attendu.

L’intérêt de récolter la donnée vient du fait que l’on peut la traiter pour offrir un service correspondant aux attentes.

Pour autant, si les données sont traitées sur le smartphone, cela réduit à néant la problématique de confidentialité tout en atteignant l’objectif promis.

Et les premières annonces pourraient bien arriver au printemps, lors des conférences annuelles de Google et Apple.

À suivre 😃

--

--