Vie Privée, Design & Dilemmes Impossibles

g4ll4is/Flickr (cc)

Le Conseil national du numérique s’est saisi en septembre 2016 de la question du chiffrement des données. Dans le cadre de ses travaux, il publiera à échéances régulières des articles d’approfondissement pour éclairer les différents enjeux du débat. Cet article est issu des réflexions du groupe de travail. Les positions qui y sont exprimées ne préjugent pas de l’avis qui sera adopté au terme de ce travail par le Conseil dans son ensemble.

Le principe de la protection des données dès la conception (privacy by design) est simple : prendre en compte la protection des données personnelles et le respect de la vie privée dans les dispositifs numériques utilisés par les individus dès la conception de ces dispositifs. L’objectif est d’éviter tout risque de fuite informationnelle en imposant des règles précises à appliquer lors de la conception des logiciels ou des services collectant, traitant ou exploitant des données personnelles, et en maintenant des procédures complètes de gestion des données tout au long du cycle de vie des produits et services. En d’autres termes : si le fameux principe de “code is law” doit s’appliquer, alors la privacy doit être incorporée dans le code même d’un service ou la fabrication un produit.

Plus précisément, le concept de privacy by design se structure historiquement autour de 7 principes fondateurs, popularisés dès la fin des années 1990 par Ann Cavoukian, psychologue, juriste et commissaire à la protection des données personnelles de l’État d’Ontario. Sur le papier, la privacy by design entend résoudre le fameux paradoxe de la vie privée — c’est-à-dire la discordance entre l’attente des utilisateurs concernant leur vie privée et leur comportements individuels en ligne. Il s’agit de protéger l’individu contre l’opérateur, mais aussi, d’une certaine façon, contre lui-même. Elle s’articule avec le principe de la privacy by default qui implique que les entreprises fournissent par défaut le plus haut niveau de protection des données à leurs utilisateurs.

Afin d’assurer la balance des intérêts entre protection des individus et promotion de l’innovation, les autorités européennes ont souhaité promouvoir ces deux principes en leur conférant une réalité juridique. Le règlement européen sur la protection des données personnelles leur consacre une disposition particulière, dans son article 25, assortie de sanctions importantes. En effet, les responsables de traitements devront — dès le 25 mai 2018 — mettre en œuvre toutes les mesures techniques et organisationnelles nécessaires au respect de la protection des données personnelles, à la fois dès la conception du produit ou du service et par défaut.

Le chiffrement apparaît comme l’un des moyens principaux de cette protection. Dans un rapport de 2014, l’agence européenne de cybersécurité recommandait aux fournisseurs de service de privilégier un chiffrement robuste, de bout en bout. Avec un tel chiffrement, seules les personnes qui communiquent entre elles peuvent déchiffrer le message. Personne d’autre n’est censé pouvoir accéder au contenu du message, y compris le fournisseur du service (Whatsapp par exemple). Ce mode de sécurisation est le plus respectueux de la vie privée et de l’intégrité des données des utilisateurs car il s’exerce sous le contrôle exclusif de ceux-ci.

Dans les faits néanmoins, rares sont encore les entreprises et startups européennes à véritablement déployer les principes de protection de la vie privée dès la conception de leurs produits et services. Si le chiffrement est aujourd’hui massivement utilisé pour sécuriser les transferts de données, ce n’est pas encore le cas de sa version de bout en bout. Paradoxalement, ce sont en majeure partie des entreprises américaines qui optent le plus souvent pour cette philosophie du privacy by design pour attirer la confiance de leurs utilisateurs — mise à mal par les révélations d’Edward Snowden. Apple et son iMessage, par exemple, ou encore WhatsApp, Viber, etc. ont repensé leurs services pour y intégrer du chiffrement de bout en bout.

Vie Privée ou Expérience Utilisateur, Doit-On Choisir ?

Plusieurs raisons permettent d’expliquer cette difficile transition. Certaines sont d’ordre technologiques, d’autres économiques, mais ces difficultés nous renvoient à une question plus fondamentale : le respect de la vie privée est-il compatible avec le développement de services capables de répondre précisément à nos besoins, le plus simplement possible ?

Dans leurs quêtes pour rendre nos vies numériques plus confortables, les entreprises sont confrontées à un dilemme assez classique : il reste difficile de fournir du confort d’utilisation, une meilleure expérience utilisateur sans sacrifier une part de protection des utilisateurs. Généralement, ce que nous gagnons en vie privée, nous devons accepter de le perdre en efficacité. Alors qu’il est communément admis que la confiance est le socle du développement de l’économie numérique, un compromis entre expérience utilisateur et vie privée est-il inhérent au monde numérique ?

Tout d’abord, le marché n’a que peu d’incitation de rechercher et déployer des technologies protectrices de la vie privée. Un chiffrement robuste, par exemple, s’oppose bien souvent aux modèles d’affaires de nombreuses entreprises du numérique, qui reposent généralement sur la collecte, l’exploitation et la valorisation des données à caractère personnel. Des données essentielles pour obtenir des services toujours plus personnalisés, mais surtout pour financer leur développement puisque la majorité des modèles reposent aujourd’hui pour l’essentiel sur des revenus tirés de la publicité ciblée. De ce fait, les entreprises ne peuvent se permettre de rester ignorantes quant aux communications qu’elles facilitent.

Par ailleurs, l’offre de produits et services numériques est de plus en plus tournée vers l’accès : les logiciels et les contenus sont de moins en moins stockés en local, mais plutôt dans le cloud (informatique en nuage) afin d’être accessibles à tout moment et sur une diversité d’appareils. Dès lors, les entreprises se ménagent un accès aux données, ne serait-ce que pour proposer des fonctionnalités de récupération de mots de passe ou de données perdus. C’est le cas d’Apple et de son service iCloud, qui permet la sauvegarde automatique des appareils fonctionnant sous iOS dans le cloud. Dans cette configuration, Apple chiffre les données présentes sur ses serveurs, mais conserve la clé de déchiffrement (ce qui lui permet de répondre aux demandes judiciaires).

Un chiffrement robuste peut également conduire à une baisse de qualité du service rendu. C’est ainsi que Google a renoncé à intégrer par défaut le chiffrement bout en bout sur Android — malgré ses précédentes annonces — mettant en avant des raisons liées aux performances techniques. De la même façon, Joe Sullivan, ancien Chief Security Officer de Facebook, affirmait que le réseau social ne pouvait pas se permettre de déployer le chiffrement bout en bout sur l’ensemble de ses services, car cela supposerait une complexité trop importante pour l’utilisateur.

L’explosion des chatbots (ou agents conversationnels, ces robots logiciel capables de simuler une conversation avec un individu ou un consommateur) illustre une nouvelle fois ce dilemme.

Les chatbots font appel à l’intelligence artificielle pour déterminer ce que l’utilisateur leur demande, et lui retourner les informations utiles. En septembre dernier, Google présentait Allo, sa nouvelle messagerie qui intègre l’un de ces assistants personnels. Si un(e) ami(e) vous propose d’aller boire un verre dans la soirée, Google vous fera part de ses suggestions d’endroits. Si ce(tte) même ami(e) vous envoie une photo de son jeune enfant, Google vous suggérera de lui répondre “Trop mignon!”. En appuyant sur un simple bouton, Google se chargera d’envoyer le message qu’il a rédigé pour vous. Pratique ! Sauf que, pour être en mesure de préparer vos réponses, Allo doit être en mesure de lire vos conversations — c’est la raison pour laquelle Google a renoncé à déployer un chiffrement de bout en bout par défaut sur ce nouveau service. Il existe néanmoins sur Allo un mode intégrant ce chiffrement, le mode “Incognito”, mais cela implique, pour l’utilisateur, de renoncer aux moyens de l’intelligence artificielle. (Notons par ailleurs qu’Allo encourage ses utilisateurs à utiliser le mode Incognito lorsqu’ils doivent envoyer quelque chose de vraiment privé ; comme le note l’Electronic Frontier Foundation, cela peut revenir à agiter un drapeau rouge : “Regardez ! Une information importante, sensible et qui mérite d’être cachée se trouve derrière ce message chiffré !”).

En l’état actuel des technologies, les chatbots ne sont pas suffisamment intelligents pour se suffire à eux-mêmes. Ils restent largement tributaires de gigantesques fermes de serveurs, avec lesquels ils communiquent dès qu’ils doivent répondre à ces questions (y compris les plus simples) — c’est ce lien qui soulève les questions de vie privée et de sécurité car l’assistant devient ce qu’on appelle un “single point of failure” (un point unique de défaillance) et donc une cible privilégiée pour de possibles attaques malicieuses.

Gageons néanmoins que ce troc contraint entre la protection des données et l’expérience utilisateur n’aura plus lieu d’être dans les prochaines années. Le secteur de l’intelligence artificielle cherche la réponse à cette question : comment préserver la protection des données personnelles tout en étant capable de fournir un service gourmand en données ? L’évolution technique semble aller dans le bon sens. À mesure que nos appareils deviennent de plus en plus “intelligents”, il devient envisageable de faire en sorte que les calculs les moins difficiles soient réalisés sur les terminaux, en local. Cela rendrait possible certains types de conversations avec une intelligence artificielle sans même une connexion internet.

Par ailleurs, une nouvelle forme de cryptographie — dans un état encore balbutiant — promet de dépasser ce dilemme. Le mode de chiffrement dit homomorphe doit ainsi permettre d’effectuer des calculs à partir de données chiffrées puis d’accéder au résultat final, qui est identique à celui qu’on aurait obtenu en analysant directement les données brutes non chiffrées. Une telle méthode permettrait par exemple de faire une recherche sur Google et recevoir les réponses sans que le moteur de recherche ne sache quel était l’objet de la requête. Néanmoins à ce jour, les algorithmes de cryptographie homomorphe restent très difficiles à mettre en oeuvre car ils se révèlent peu efficaces face à des calculs complexes ; mais la recherche avance à grands pas.

Pour le traitement de larges bases de données, citons également la confidentialité différentielle (differential privacy), utilisée par Apple dans plusieurs de ses services — notamment Siri, son assistant virtuel — une approche statistique qui consiste à en apprendre le maximum sur un groupe d’individus tout en en apprenant le minimum sur chaque individu de ce groupe. Apple collecte ainsi les données, sans pour autant collecter vos données. Cette discipline mathématique, qui sort progressivement des universités où elle est étudiée depuis une quinzaine d’année, vise à collecter et stocker les données des utilisateurs d’un service dans un format permettant à l’entreprise d’en extraire des informations utiles. Il serait en revanche mathématiquement impossible d’extraire des informations sur un individu en particulier. Cela vaut pour l’entreprise en question, mais aussi pour des hackeurs externes ou des agences de renseignement. Cette approche se distingue de l’anonymisation des données qui, comme beaucoup de chercheurs l’expliquent, a montré ses limites (Netflix l’a appris à ses dépenses).

Les Données : Or Noir ou Actif Toxique ?

Les vols et les fuites d’informations personnelles ne sont pas rares. Pas une semaine ne s’écoule sans que l’actualité ne se fasse l’écho d’une faille critique découverte dans un système.

Les conséquences peuvent être catastrophiques. Pour cause : réseaux sociaux, moteurs de recherche, opérateurs de télécommunications… la plupart des entreprises sont aujourd’hui tentées de stocker un maximum d’informations sur leurs consommateurs, clients, utilisateurs ou usagers. Les dernières années ont même vu apparaître un nouveau métier, les grossistes en données (data brokers). Ces courtiers du numérique sont spécialisés dans la revente de données principalement destinées au ciblage publicitaire. Régulièrement présentée comme “l’or noir du XXIe siècle” (une analogie douteuse), la donnée est collectée et stockée bien au-delà du nécessaire, beaucoup d’entreprises se disant qu’elles trouveront bien un moyen de les utiliser un jour. Information is power. Et en 2017, l’information ne coûte rien à stocker. Le coût si faible pour les entreprises que pour rendre une donnée indisponible (lorsqu’un utilisateur demande sa suppression par exemple), il est parfois plus intéressant de créer une nouvelle donnée indiquant son indisponibilité plutôt que de directement supprimer la donnée originale.

Plus la masse de données conservées par une entreprise est sensible, plus cette entreprise devient une cible. L’état des risques et des cybermenaces conduit Bruce Schneier, expert en sécurité informatique, à considérer que les données doivent être traitées comme des actifs toxiques. Aucun système n’est imprenable. La meilleure façon de se prémunir d’une attaque reste de collecter le minimum de données possibles :

Conserver des données est dangereux car elles sont difficiles à sécuriser. […] Les attaquants ont un avantage inhérent sur les défenseurs et un attaquant suffisamment qualifié, financé et motivé réussira toujours à entrer.
Conserver les données est dangereux car un échec de sécurisation conduit à d’importants dommages. Il réduira les bénéfices d’une entreprise, nuira à son cours en bourse, lui causera un embarras public et, dans certains cas, entraînera des poursuites coûteuses et parfois des accusations criminelles.
Tout cela doit nous amener à considérer les données comme des actifs toxiques. Elles continueront d’être toxiques tant qu’elles seront conservées dans les ordinateurs ou les serveurs d’une entreprise. Les données sont vulnérables et l’entreprise est vulnérable. Elles sont vulnérables aux pirates informatiques et aux gouvernements. Elles sont vulnérable aux erreurs des employés. Et quand il ya un déversement de données toxiques, des millions de personnes peuvent être touchées.
— Bruce Schneier

L’impressionnante fuite de données du site de rencontres adultères Ashley Madison à l’été 2015, qui concernait près de 37 millions d’individus, a été catastrophique pour les individus (cette fuite a conduit à de nombreux suicides des individus) et pour l’entreprise. Notamment parce que cette dernière avait fait le choix de conserver les vrais noms de ses clients associés à leurs informations bancaires. Il aurait pu en être autrement : l’entreprise aurait pu choisir de supprimer les informations de cartes bleues une fois les paiements effectués. C’est précisément le sens de la privacy by design.

Le chemin reste encore long avant que les services et les produits intègrent massivement cette philosophie à leur ADN. En plus des difficultés techniques à la mise en oeuvre de ce principe, les acteurs économiques doivent également composer avec des injonctions contradictoires : respecter l’esprit du droit de l’Union sur la privacy by design, qui promeut des moyens de protection comme le chiffrement de bout en bout, tout en ménageant un accès aux données pour les autorités légitimes. Dans un contexte de risque terroriste important, le chiffrement est menacé des deux parts de l’Atlantique : après les annonces estivales de Bernard Cazeneuve et de son homologue allemand visant à limiter le chiffrement, c’est désormais la Croatie, l’Italie, la Lituanie, la Pologne et la Hongrie qui ont déclaré vouloir que la Commission européenne pousse une législation sur le chiffrement pour faciliter les enquêtes de police. Ces positionnements remettent sérieusement en doute l’implémentation de la privacy by design et plus encore la résilience de notre économie numérique.

Ce texte est issu d’un travail en cours et est donc susceptible d’évoluer. N’hésitez pas à le commenter ou à adresser vos retours à info@cnnumerique.fr

Signataires : Rand Hindi (pilote du groupe de travail), Célia Zolynski, Antoine Petit, Yves Poilane, Emmanuelle Roux, Ghislaine Hierso, Yann Bonnet (Secrétaire général), Romain Delassus, Charly Berthet, Lofred Madzou et Marylou Le Roy (rapporteurs).