Le Traitement des données de santé, enjeux et réalités | MU 15.10.2015

Avec Alexandre Templier, spécialiste de la data science

Epidemium
Epidemium
Jan 20, 2017 · 18 min read

Trois questions à…

En quoi les données massives de santé sont une opportunité pour la santé de demain ?

AT : Les progrès thérapeutiques de la médecine moderne reposent aujourd’hui essentiellement sur la réalisation d’études cliniques qui ont pour objet de démontrer l’efficacité et la sécurité de produits pharmaceutiques ou de dispositifs médicaux. Ces études cliniques sont réalisées sur un nombre de patients extrêmement réduit au regard des populations concernées à l’échelle globale. Il est en effet assez rare de voir des études de plusieurs milliers de patients, compte tenu du coût et des difficultés organisationnelles liés à la réalisation de ces études. Ceci peut entraîner la mise sur le marché de produits globalement peu efficaces, ou pire, potentiellement dangereux.

Pour qui est-ce une opportunité ? (patients, acteurs économiques, pouvoirs publiques, médecins, hôpitaux, etc.)

AT : Sans tomber dans l’angélisme ni dans un optimisme forcené, je crois que l’avènement des données massives sera une opportunité pour tous. Tout progrès, toute évolution, comme toute régression, comporte évidemment sa part de risque. Les libertés publiques, la vie privée, les modèles de mutualisation des risques, l’emploi et bien d’autres choses seront assurément remodelés par les nouveaux usages que les méga données, la data science et l’internet des objets vont apporter.

Quels sont les grands challenges d’aujourd’hui pour une analyse des données de santé et quels seraient les freins à lever ?

AT : Les principaux défis me semblent essentiellement réglementaires et organisationnels. Beaucoup plus de choses seraient possibles dès aujourd’hui si la réglementation était assouplie. Un seul exemple : le consentement éclairé de chaque patient, qui est obligatoire dans toutes les études clinique, précise l’usage qui va être fait des données, notamment en termes d’analyses. S’il est tout à fait normal que les principes de la CNIL soient appliqués dans le cadre de la recherche médicale, il semble excessif de bloquer par principe toute analyse des données ainsi générées sous prétexte que celle-ci n’était pas prévue initialement. Cela bloque structurellement et inutilement les découvertes qui pourraient découler d’une exploration systématique de ces données. On observe d’ailleurs, en particulier aux États-Unis, une tendance à élargir dès la conception des études cliniques le champs des analyses qui pourront être réalisées en aval.


Compte rendu

Introduction

Les enjeux et les réalités du traitement des données de santé couvrent un sujet très large, que mon expérience et le temps qui m’est imparti ne me permettent pas de traiter tout à fait. Je me bornerai donc à partager l’expérience de Quinten dans le domaine de la valorisation des données de santé.

Apport du big data dans la santé

La meilleure définition du phénomène big data que j’ai vue à ce jour prend la forme d’une addition :

Enjeux de l’exploitation des données

Importance et irréductibilité de la subtilité de l’humain

Hétérogénéité des données : à quand la fin du “moyennage” ?

Prenons l’exemple des études cliniques dont l’objectif est de démontrer l’efficacité et l’innocuité des médicaments afin d’obtenir leur homologation et leur mise sur le marché. Ces études sont conçues en fonction des hypothèses à vérifier. Les critères d’inclusion, la taille de l’échantillon, le type de protocole utilisé, sont choisis en fonction de ce que l’on veut démontrer. L’industrie pharmaceutique supporte des taux d’échec très importants à chaque étape de son cycle de recherche et développement, et en particulier dans les phases cliniques. En moyenne, sur dix molécules testées chez l’homme, une seule arrive en effet sur le marché. Cela tient à plusieurs choses mais probablement par dessus tout à la complexité et à la diversité du vivant.

Étude de cas à l’Institut Gustave Roussy

Prenons un exemple sur lequel nous pouvons communiquer librement : le professeur Jean-Charles SORIA, de Gustave Roussy, nous a confié pour analyse une base de données anonymisée relative à une cohorte de 126 patients atteints de cancer du poumon, tous traités chirurgicalement (résection tumorale). Sur les 121 patients, seuls 61 patients avaient reçu une chimiothérapie adjuvante. La courbe de survie à 7 ans de recul ne montrait aucune différence significative entre le groupe de patients traités et le groupe de patients non traités par chimiothérapie adjuvante. L’équipe de Gustave Roussy disposait des données transcriptomiques relatives aux tumeurs réséquées chez tous les patients. Des analyses bio-informatiques et de data mining n’avaient pas permis d’identifier de quelconques sous-groupes présentant de meilleurs résultats sous traitement.


Échange avec le public

Illustration : Barbara Govin

Public : Quels sont les profils des pharmaciens avec lesquels Quinten interagit ? Sont-ils capables de comprendre (les enjeux du traitement de données) ?

AT : Quinten travaille avec de nombreux professionnels de Santé, dont des médecins, des biologistes, des pharmaciens, etc. L’un des intérêts à utiliser des outils d’extraction de sous-groupes est que les experts métier avec lesquels nous travaillons n’ont pas besoin d’avoir fait des études de mathématiques ou de machine learning pour comprendre les résultats que nous leur présentons. Néanmoins, comme je l’ai mentionné précédemment, cela suppose une grande rigueur et une grande prudence. Ce n’est pas parce qu’un expert juge un résultat pertinent que ce dernier est nécessairement robuste et reproductible. Il convient donc de rester humble et pragmatique.

Public : Par rapport au small data, à partir de combien de data le taux de réponse est considéré comme précis ?

AT : Nous avons d’emblée défini un seuil de manière arbitraire : on ne s’intéresse pas aux sous-groupes qui représentent moins de 10% de la population globale. Plus le nombre d’observations est faible, plus il convient d’être prudent. Parfois, nos partenaires nous demandent de baisser ce seuil de 10% et nous le faisons en conscience des risques que cela implique. Ce faisant, il nous est néanmoins arrivé de faire émerger des résultats qui en valaient la peine.

Public : Débat entre corrélation et causalité.

AT : Globalement, nous traitons deux types de sujets. Ceux pour lesquels il n’y a pas de flux de données mais des “photos” séparées par des intervalles pouvant aller jusqu’à plusieurs années et ceux pour lesquels il existe un flux de données plus ou moins continu. Dans tous les cas, notre approche consiste à générer des hypothèses d’associations. Dans le premier type de sujet, il nous faut soit trouver un jeu de données distinct et comparable, soit attendre des années avant de vérifier si ces hypothèses sont vérifiées. Dans le deuxième cas, il suffit d’attendre quelques jours ou quelques semaines pour vérifier la robustesse de nos hypothèses et l’efficacité des actions qui en ont découlé. Au-delà de la robustesse de l’association, le fait de vouloir tester la causalité implique de travailler dans des cadres expérimentaux de type randomisé en double aveugle ou de type AB testing.

Public : Pensez-vous que la mainmise des laboratoires pharmaceutiques sur les données cliniques pourrait être un obstacle au big data ? L’obligation de confidentialité ne restreint-elle pas le potentiel du big data ?

AT : Ce n’est pas tant la confidentialité que le coût et la durée des études cliniques qui limitent de fait le potentiel de ces données. La collecte de ces données est très onéreuse et très longue, par conséquent les laboratoires pharmaceutiques la limitent à un nombre de patients généralement très réduit. C’est principalement la contrainte de coût qui fait que les études sont petites. Mais elles sont extrêmement documentées.

Public : Les données de santé sont-elles soumises à la CNIL ? Peut-on faire ce qu’on veut avec ?

AT : Il est nécessaire de s’assurer que les partenaires fournissant les données à analyser ont l’autorisation de les transmettre à un tiers, fut-ce sous accord de confidentialité. Cela suppose une anonymisation systématique voire un chiffrage des données. De plus, l’hébergement de données de santé est très encadré. Les parties prenantes doivent s’engager à être conformes à la réglementation.

Public : La notion d’hébergement de données de santé est une spécialité française. Beaucoup de start-ups pensent que c’est pénalisant pour la recherche. Y a-t-il un couplage des données soumises avec des données ouvertes, par exemple de type environnemental ?

AT : Coupler les data soumises avec l’open data, cela apportera de la valeur mais c’est aussi là que beaucoup de problèmes et de questions se posent, notamment en termes juridiques. Géolocalisation, ré-identification, objets connectés etc ; tout cela est en réflexion et prendra encore pas mal de temps, dans le même temps de plus en plus d’acteurs se positionnent sur la collecte de données personnelles de santé. Dans l’hôpital, chez le médecin, dans l’officine, etc. Seuls survivront ceux qui sauront provoquer, ou a minima anticiper, les changements liés à l’apparition de standards d’opérabilité et à la probable reprise en main de ses données par l’individu lui-même.

Public : Les données médicales constituent l’identité médicale des patients. Ne serait-il pas pertinent que l’hébergeur des données médicales soit le patient lui-même ?

AT : Oui, absolument. Dans d’autres domaines comme la grande consommation, il existe déjà des initiatives qui permettent à l’individu de valoriser ses données personnelles (Cashinfo, YesProfile) : ces plateformes valorisent des données et reversent à l’individu jusqu’à deux tiers des revenus générés à l’aide de ses données. Cela constitue un renversement de modèle qui préfigure une reprise en main progressive des données individuelles par l’individu lui-même. Il est possible que cela tende à se généraliser et que ce secteur devienne extrêmement compétitif.

Public: Demain le patient sera-t-il en mesure d’héberger lui-même ses données et d’autoriser le partage de certaines d’entre elles, sans passer par des tiers pour en donner l’autorisation ?

AT : On peut, en effet, imaginer un modèle privilégiant le stockage des données personnelles en général et de santé en particulier par l’individu lui-même, sous réserve que le niveau de sécurité soit suffisant, qu’un standard d’interopérabilité , même partiel,existe et que les transactions soient “protocolisées”. Le technologie “Blockchain” contribuera probablement à rendre cela possible. Cela constituerait une manière de décentraliser l’hébergement et d’offrir un niveau de sécurité supérieur. Évidemment il est plus difficile de hacker des millions d’individus l’un après l’autre que de hacker un serveur sur lequel se trouvent les données d’un million d’individus.

Échange sur la notion de traçabilité.

Intervenante dans le public : En France on ne peut pas aujourd’hui autoriser le patient à ajouter, enlever des données le concernant, car le médecin doit avoir accès des informations justes et correctes. Ainsi, dans une relation médecin patient idéale, le patient n’est peut-être pas si maître de ses données que cela. Le patient peut consulter mais il n’a pas le droit d’ajouter ou de supprimer une donnée car la responsabilité du médecin est en jeu.

Public : Avec le mouvement scientifique prônant la mise en ligne des données des articles, des essais cliniques, … n’a-t-on pas envie de revenir dix ans en arrière pour réinventer le monde ? Quel serait l’apport global que cela pourrait donner ?

AT : Oui, ce serait bien mais la réalité c’est qu’une fois que c’est perdu, c’est perdu. Plus un jeu de données est ancien, plus il est difficile d’y revenir pour générer de nouvelles connaissances. Par ailleurs, comme nous l’avons vu, l’industrie est peu efficiente en raison de forts taux d’échec mais ce déficit d’efficience fait aujourd’hui partie de son ADN même si celui-ci est amené à évoluer.

Public : Comment éviter les risques de faux positifs dans les techniques d’extraction de règles ?

AT : Nous avons mis au point des méthodes qui permettent de gérer sereinement l’explosion combinatoire à laquelle on s’expose lorsqu’on se lance dans ce type d’analyses. Nous effectuons par exemple des calculs a priori sur le nombre maximum de sous-groupes autorisés en fonction du volume et du type de données disponibles, nous mesurons l’écart à l’aléa de chacun de nos résultats que nous pondérons avant d’interagir avec le métier et confronter l’expert/l’humain à ce que nous avons mis en évidence sans a priori. Cela conforte souvent les intuitions et les découvertes des experts métier et leur permet surtout de voir ce qu’ils n’ont pas encore vu. Nous ne prétendons jamais que nos résultats sont systématiquement et nécessairement robustes — notre rôle se limite dans un premier temps à détecter des contextes dans lesquels il semble se passer des choses intéressantes et de faire réagir les experts à ces contextes, avant de passer à la vérification de la robustesse et au développement des solutions qui accompagnent ensuite ces experts au quotidien. Il existe une réelle complémentarité et une réelle coopération entre nos data scientists et les experts métier pour lesquels ils travaillent. Cette expérience humaine renouvelée est toujours génératrice de sens et de valeur. C’est d’ailleurs certainement l’une des choses les plus motivantes et les plus intéressantes pour les data scientists qui rejoignent l’aventure Quinten.

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges

Epidemium

Written by

Epidemium

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science

EPIDEMIUM

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges