Open data en santé : enjeux et débat | MU 21.01.2016

Avec Geoffrey Delcroix, chargé d’études innovation et prospective à la CNIL, et Jonathan Keller, juriste de La Paillasse

Epidemium
Epidemium
Jan 20, 2017 · 18 min read

Compte-rendu du Meetup réalisé à La Paillasse, le 21 janvier 2016.

Trois questions à…

Open data et protection des données personnelles sont-elles des notions qui s’opposent ?

Dans le domaine de la santé, les données sont considérées comme sensibles. Comment cette notion évolue-t-elle ?

Comment la CNIL aborde-t-elle les questions des projets de recherche collaborative ?

… Jonathan Keller

Quels sont les enjeux de l’open et en matière de données de santé ?

L’ouverture des données de santé était donc un tabou juridique. Leur statut est strictement réglementé. La popularisation des grosses données (big data) fragilise progressivement cet interdit. Peu à peu, car cette ouverture reste soumise à d’obscures procédures d’anonymisation irréversible des données (voir question suivante). Néanmoins, cette ouverture des données de santé crée une base commune affranchissant tout citoyen du respect d’une condition préalable d’expertise médicale. Plus clairement, l’open data de données de santé tente de concilier un objectif de création de biens communs avec l’objectif du respect de la vie privée des personnes dont sont issues les données.

Quels risques pose l’ouverture des données de santé ?

Or, pour que les données personnelles de données de santé soient publiées en open data, ces dernières doivent être anonymisées de façon irréversible, c’est-à-dire qu’elles doivent devenir des données objectives concernant la santé d’un inconnu. Pour ce faire, des mesures d’anonymisation doivent être implantées à deux stades du traitement des données personnelles de santé. Le premier stade est en amont de la collecte de données, par le recueil du consentement du patient à procéder à un tel traitement de données. L’open data de données de santé étant une nouvelle opportunité, ce recueil est rarement fait, contraignant ainsi soit un recueil rétroactif pour des données existantes (ce qui est en pratique plutôt dur à faire), soit commencer la collecte pour le futur. Le second stade est en aval par l’assurance du responsable du traitement de donnée que l’anonymisation est suffisamment efficace pour que la donnée objective concernant la santé d’un inconnu ne puisse, à force de recoupement avec des données issues d’autres bases, redevenir une donnée personnelle de santé.

Mais tant les théoriciens du droit et de l’informatique critiquent la possibilité d’une totale anonymisation, tant les praticiens se retrouvent confronter au problème concret de l’implémentation d’une telle procédure. Certes, les grandes lignes de cette dernière sont énoncées par le Groupe de Travail de l’Article 29 (Think Tank regroupant les différentes CNIL européennes), mais ces grandes lignes ne sont que difficilement applicables. Ainsi, pour reprendre une comparaison simple, le Groupe de l’Article 29 donne la photo d’une gâteau avec une recette incomplète. La charge de combler cette recette incomplète échoit à l’opérateur cherchant à anonymiser les données de santé. Pour l’instant, les procédures d’anonymisation des données de santé en est qu’au stade expérimental et la CNIL offre une expertise limitée.

Quel intérêt y a-t-il à ouvrir des données de santé ?

Une telle collaboration entre un grand public intéressé et le monde scientifique renvoie à deux conceptions du logiciel ouvert et libre. Tout d’abord, au principe de non-discrimination, puisque toute personne pourra accéder sans condition aux données de santé. L’élitisme qui était jusqu’alors requis pour accéder à ce type de données ne l’est plus. Ensuite, la “loi de linus” déclare “given enough eyeballs, all bugs are shallow”. Plus clairement, la multiplication d’acteurs offre une meilleure vision des problèmes. Or, une telle multiplication de points de vue de l’impact de certains comportements sociaux sur la santé (pollution sonore ou électromagnétique ou défaut d’hygiène dans le métro) provoquera une évolution sociale soit par les pouvoirs publics, soit par les acteurs privés.

Ces derniers pourraient aussi être incités à résoudre les problèmes soulevés par ces tendances pour faire des économies sur les soins et donc à privilégier la prévention. Mais ces mêmes acteurs privés pourraient également être incités à collaborer avec le grand public pour déterminer des tendances qui seront financées par les services publics. L’ouverture des données de santé permet donc aux citoyens de ressaisir son environnement et d’avoir une meilleure appréhension de ce qui le concerne directement.

Compte rendu

L’open est un mouvement né dans les années 1970. Il concerne les droits de propriété intellectuelle (cf. Linux, création d’un logiciel libre). L’open science a pour visée d’échapper au lobby de l’industrie de l’édition scientifique.

(Intervention dans le public : L’open data, qui concerne donc le domaine de l’informatique, contrairement à l’open science, n’est pas vraiment brevetable même s’il peut être protégé par des droits d’auteur. Donc lorsque l’on crée un logiciel, autant qu’il soit collaboratif pour être le plus performant possible.)

Une question importante : la data est-elle une donnée ou une information ?

Mouvement en informatique, cf. le blog SILex : http://scinfolex.com/

L’information est un bien non rival, c’est-à-dire que tout le monde peut le “consommer” en même temps. C’est d’autant plus vrai en informatique.

Jusqu’à présent, l’open data est une initiative purement publique.

Droit américain : repose sur le Freedom of Information Act (1966). L’open data a été initié en 1997 par la mairie de Baltimore, qui voulait utiliser les initiatives publiques pour réduire le crime et sortir de la crise économique.

Droit français : la première loi est la loi de la “liberté d’accès aux documents administratifs” (1978). Ne légifère que sur les demandes par les citoyens d’accéder à l’information ; ce n’est pas l’administration qui met l’information à disposition des citoyens.

Droit européen : pose le principe de la libre diffusion et réutilisation de l’information publique en 2003. Consécration par l’administration du mouvement ouvert. Toute information faite par l’administration doit/peut être mise à disposition du public. Problème : il s’agit d’une directive, donc le texte est encadrant mais pas directement applicables dans la loi interne du pays. Il faut donc que chaque pays légifère.

Il n’existe pas de définition juridique de l’open data. Les chercheurs juristes se reposent sur Wikipedia.

Le projet de loi numérique distingue :

  • les données de référence : données publiques qui servent au plus grand nombre ;
  • les données d’intérêt général : données qui seraient mises à disposition par le délégataire de service public ; les données privées d’entreprises privées qui sont sous contrat de délégation de service public avec l’État, seront nationalisées.

Le projet de la loi sur le numérique prévoit les données d’intérêt général qui permettrait aux délégataires de service public de transmettre des données qui seront ouvertes. La limite est que ce choix sera fait par l’administration publique qui déciderait de la nationalisation des données et cela pourra poser des problèmes financiers et techniques. Par exemple, ce serait un moyen de permettre la remontée des données des opérateurs privés vers l’opérateur public (Orange).

Initialement, la finalité de l’open data était de faciliter le contrôle démocratique. Il y avait une volonté de contrôler l’administration publique, et pour cela, il fallait prouver un droit à avoir accès à l’information. Cette situation a duré jusqu’à la loi de 2005.

Directive PSI (Public Sector Information) de 2013 sur la réutilisation des informations publiques donne le droit d’accéder directement à l’information avec une mise à disposition par les États. C’est ce qui a permis le développement de communautés open source centrées sur la donnée.

Une des problématiques actuelles, c’est qu’il y a plusieurs droits sur l’information. L’information, bien non exclusif et non rival, est accessible à tous et on ne peut pas la restreindre (comme un champs de blé, par exemple). Cette information n’est donc pas a priori protégeable.

Néanmoins l’information publique peut relever de plusieurs points : de la sécurité nationale, de l’appartenance à une personne privée (délégataire de service public, ou dans le cadre d’une négociation), de la société publique industrielle et commerciale, ou encore des données appartenant à des tiers, … Il faut alors les protéger en la restreignant.

Seconde protection : les bases de données.

Mouvement actuel au Parlement européen pour abolir le droit des bases de données. Inconvénient de ce droit : il donne un droit à la fois sur la façon dont on ordonne les données et sur les données une fois agrégées.

L’administration dispose d’un droit sur les bases de données, d’où :

  • Une non-obligation à diffuser toutes les data de ces bases de données. On a donc en parallèle de l’open data et pas d’open data
  • Un droit de propriété intellectuelle et don un droit de monétiser ces données et bases de données.

D’où une situation juridique ambiguë : l’État a l’obligation de diffuser les données mais dispose également de droits dessus.

La gestion des données publiques est encadrée par des licences, qui sont soit des licences libres soit des licences ouvertes. En plus des limites précédentes, d’autres limites aux données publiques : les données personnelles et les données de recherche, dans la mesure où ce n’est plus l’État mais les collectivités ou les personnes publiques qui disposent de ces données.

Geoffrey Delcroix, chargé d’études innovation et prospective à la CNIL

Quelques éléments sur la CNIL : c’est une autorité administrative indépendante de 180 agents, avec un collège pluraliste de dix-sept commissaires.

Indépendance signifie que c’est un organe d’État mais une entité non rattachée à un ministère, qui ne peut pas recevoir de consignes de la part d’une autorité gouvernementale et qui dispose d’un budget propre.

Sa mission principale est la protection des données personnelles et la protection de la vie privée.

Mais elle a aussi une mission plus large, incarnée par l’art. 1 de la loi 1978 Informatique et libertés : il faut penser au développement des technologies pour qu’elles soient au service des citoyens et ne portent pas atteinte à l’identité humaine, aux droits de l’homme, à la vie privée et aux libertés individuelle ou publique. Il y a donc une approche éthique importante du déploiement des technologies numériques.

La définition de ce qu’est une “donnée à caractère personnel” est très large. Ce n’est pas seulement des données nominatives mais des données relatives à une personne identifiée ou identifiable directement ou indirectement. Ce qui importe, c’est de protéger la personne, pas la donnée.

Une question très importante pour les enjeux d’anonymisation part du constat qu’enlever le nom et le prénom ou d’autres identifiants uniques ne suffit pas nécessairement à anonymiser une base de donnée, s’il y a, par exemple, des données de géolocalisation, ou d’autres données très “uniques”.

“La vie privée ne prend son sens que lorsqu’elle forme le socle de notre vie publique”, Daniel Kaplan

Il est nécessaire d’apporter une protection aux individus qui leur permette d’être des citoyens libres et autonomes dans la vie publique.

Environnement institutionnel :

  • 1978 : loi Informatique et libertés
  • 1995 : directive européenne sur la protection des données personnelles
  • 2004 : loi qui transpose cette directive dans le droit français
  • Aujourd’hui : négociation autour d’un règlement européen sur les données personnelles. Un texte de consensus vient d’être adopté entre les institutions européennes, son adoption définitive se fera probablement en mars puis il y aura environ deux ans de délai de mise en application.

On fonctionne sur des régimes de temps long de production du droit, d’où la nécessité de prévoir des règles de droit relativement “agnostiques” du point de vue des technologies, c’est-à-dire qui dépendent le moins possible de l’évolution technologique rapide.

On a conscience que ces questions ne se règlent pas uniquement au niveau national. Cette réglementation est largement européenne et de plus en plus harmonisée, même si pas encore parfaite. Le “groupe de l’article 29” réunit toutes les autorités de protection des données européennes.

On a une situation particulière car il existe peu de pays dans le monde où on retrouve un même niveau de protection des données.

À l’international, il y a un enjeu important avec les États-Unis, où les règles sont moins strictes et moins générales mais existent souvent par secteur (par exemple avec HIPAA sur les données de santé). Aux États-Unis, c’est souvent le juge qui intervient, avec des sanctions lourdes. Les règles sont plus strictes en Europe, avec une définition de ce qu’est la donnée personnelle beaucoup plus large. Parfois les États-Unis contestent le droit européen, ce qui peut entraîner de longues discussions.

Il y a plusieurs avancées dans le règlement européen par rapport à la loi de 1978, modifiée en 2004 :

  • Plus forte harmonisation au niveau européen ;
  • Création de droits nouveaux pour les individus, en particulier le droit à la portabilité : créer un droit de récupération et potentiellement de réutilisation des données fournies par une personne à un service ;
  • Pour les entreprises, allègement des obligations de formalités, approche de conformité (“compliance”) ;
  • Pouvoirs de sanction accrus pour la CNIL (au niveau national, un amendement augmentant les pouvoirs de sanction vient d’être voté dans le cadre de la première lecture à l’Assemblée Nationale de la loi dite “Lemaire”).

Il y a de grands principes en matière de protection des données qui sont des principes robustes mais pas toujours faciles à adapter a priori à des contextes nouveaux comme celui de l’open data :

  • Finalité de la collecte et du traitement des données
  • Proportionnalité et pertinence
  • Durée de conservation
  • Sécurité et confidentialité
  • Droits des personnes (accès à l’information, rectification, suppression…)

La CNIL et l’innovation :

Cela est incarné en particulier par la création d’une équipe “études, innovation et prospective” et dans des publications et expérimentations (dans le cadre d’un laboratoire en interne) (voir www.cnil.fr/ip).

Open data et protection des données personnelles :

En réalité, plutôt complémentaires. Les deux droits avancent d’ailleurs en même temps (par exemple loi CNIL et loi CADA datent toutes deux de 1978). La réalité c’est que dans beaucoup de projets d’open data, il n’y a pas de problème de données personnelles.

En revanche, ce qui est difficile à appréhender, c’est la frontière entre les différentes catégories de données quand on est face à des données brutes, c’est-à-dire savoir évaluer s’il y a des données personnelles dans un jeu de données, comprendre l’anonymisation, etc. C’est ce mécanisme qui doit être renforcé. D’ailleurs, le premier Rapport de l’Administrateur Général des Données de l’État (Henri Verdier), rendu public aujourd’hui préconise entre autres que pour améliorer la gouvernance de la donnée publique, il faut travailler sur l’anonymisation avec la création d’une task force et la création de kits d’anonymisation.

Données de santé, données sensibles :

C’est une sujet sur lequel la CNIL est très mobilisée, surtout concernant la recherche.

Il peut y avoir un flou sur les frontières entre les différents types de données. Pour les données médicales, c’est facile. Mais par exemple, les données captées par les capteurs de la vie quotidienne peuvent paraître anodines mais lorsqu’on en a un large accès, on peut arriver à des choses assez sensibles.

Il y a un flou dans la sensibilité des différents types de données de santé. Il ne faut pas se contenter de croire que la donnée de santé sensible n’est que celle produite dans le contexte médical traditionnel (par des professionnels de santé, sur des instruments médicaux, …).

La recherche collaborative :

Rappel : la bonne intention finale ne suffit pas.

“Just because it’s accessible doesn’t make it ethical”, Danah Boyd, spécialiste du numérique en sciences humaines et sociales.

Ainsi, ce n’est pas parce qu’une donnée est librement accessible aux chercheurs que c’est éthique de l’utiliser. Il faut trouver le bon équilibre. Il est important que les chercheurs réfléchissent à l’éthique et à l’accès et aux risques qu’ils font concourir aux personnes s’ils ne gèrent pas bien les données (par exemple les questions de sécurité).

Il y a un article sur InternetActu.net de Dominique Cardon, “Travail et travailleurs de la donnée”. Les chercheurs sont des “travailleurs de la donnée”, ils doivent avoir une réflexion éthique sur ce qu’ils font de la donnée, sur les conséquences que leur travaux peuvent avoir. Ce n’est pas juste une matière brute sans aucune attache. Il est nécessaire de réfléchir aux conditions de récupération et aux usages qu’on en fait, à la légitimité et à l’éthique.

Échange avec le public

Illustration : Barbara Govin

Public : Le problème ce n’est pas la donnée c’est l’usage, ce serait donc mieux de pouvoir surveiller l’usage ?

Nous sommes à un moment charnière autour de ces sujets d’open data car le terme est parfois utilisé pour des choses qui n’ont pas grand choses à voir :

  • Il y a l’open data stricte : limiter au maximum les contraintes qui pèsent sur les données et libérer au maximum leur réutilisation. Du coup, si des données personnelles peuvent être concernées, il faut une solution qui respecte la Loi et les droits des personnes (par exemple l’anonymisation, qui n’est presque jamais anodine ni en terme de coûts, ni en terme de qualité des données) ;
  • Or, dans beaucoup de cas, on n’est pas vraiment dans l’open data mais dans le “more open data” : on essaye d’ouvrir d’avantage des données dont l’accès est encore limité. Trouver quelque chose pour ouvrir plus des données qui ne le sont pas encore. Et dans ce cas, on n’est pas obligé d’avoir des exigences aussi lourdes (par exemple l’anonymisation).

Il faudrait arriver à distinguer ces sujets, et ne pas parler pour tout d’open data.

Public : A propos de l’algorithme qu’on applique pour qualifier les données sensibles. Est-ce qu’on contrôle le travail de prospection fait par les chercheurs pour qualifier les données ?

Mais comment définit-on ce qui est dans la loi… Il n’y a pas d’algorithme pour le moment, c’est le rôle de la CNIL. Il faut faire attention à ne pas adhérer à une définition trop facile (par exemple, la donnée de santé n’est pas seulement une donnée prise dans le contexte médical).

Public : Justement, un algorithme ne permettrait-il pas de garantir l’anonymisation en termes de probabilité ?

Ce serait idéal d’avoir un outil “automatique” mais ce n’est vraiment pas simple de définir un algorithme qui permette de qualifier si une base de données est sensible et de l’anonymiser automatiquement.

A priori, il est illusoire de penser qu’on va inventer une “moulinette” à anonymisation qui marche dans tous les cas (enfin en tout cas en préservant au moins en partie l’utilité des données). On est beaucoup encore sur du cas par cas. Toutefois beaucoup de gens travaillent à obtenir ce genre d’outils, au moins par exemple pour évaluer “automatiquement” les risques de réidentification.

Public : Combien recevez-vous de plaintes de personnes qui jugent qu’il y a une utilisation abusive de leur données de santé par an ? Avez-vous un ordre de grandeur de comparaison avec les États-Unis ?

La CNIL reçoit beaucoup de plaintes mais la répartition de ces plaintes n’est pas représentative car les gens n’ont pas forcément conscience du sujet et des risques.

Par exemple, le droit à l’oubli est très connu donc les gens ont tendance à agir. Mais pour notre sujet, les individus n’ont pas nécessairement les moyens de détecter les abus qui leur sont faits. Le niveau de plainte n’est donc pas forcément un bon indicateur ici.

Cf. Snowden et la NSA : peu d’Américains avaient saisi directement un juge et pourtant il y avait un vrai sujet.

Public : Vous avez parlé d’un laboratoire à l’intérieur de la CNIL, peut-on avoir des exemples des travaux ?

Il y a également la volonté de développer des projets innovants :

  • Mobilitics : développer avec des chercheurs Inria un outil d’analyse de la collecte des données faite dans les smartphones via les applications, pendant que le smartphone marche ⇒ Publication d’une analyse sur les données collectées, par exemple la géolocalisation.
  • CookieViz : développer un outil mis à disposition du public permettant de visualiser en temps réel les trackers de navigation. C’est la première fois que la CNIL développe un outil disponible au téléchargement, en plus sous licence de logiciel libre ⇒ +100 000 téléchargements, cela montre un réel appétit des citoyens pour savoir ce qu’il se passe.

Rejoignez la communauté Meetup, Twitter & Facebook.

EPIDEMIUM

Inclusive and community-based open science program…

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges

Epidemium

Written by

Epidemium

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges