Quels usages de la science des données et du big data pour la santé ?

Par Dr Charles Ferté & Pr Bernard Nordlinger

[Livre blanc |Partie II, Article 1]


La santé est un enjeu majeur pour nos sociétés pour les années à venir. Contrairement à beaucoup d’autres industries, ce domaine n’a pas encore pris le virage du numérique, alors même que le potentiel offert par les nouvelles technologies, notamment pour transformer la prise en charge et la qualité des soins offerts aux patients, est particulièrement significatif. La numérisation de la santé génère quotidiennement de nouvelles données, qui permettront de faire entrer la médecine dans une nouvelle ère de soins plus personnalisés et plus justes.


Bientôt, la santé de notre monde connecté ne sera plus celle du monde d’hier. Déjà, elle est le lieu privilégié où sont expérimentées les innovations les plus pointues dont nous entendons parler tous les jours. Objets connectés, intelligence artificielle, partage de données, big data, blockchain, … sont autant de termes qui pénètrent petit à petit le système de santé traditionnel pour le transformer.

« Certaines de ces applications se concrétiseront et d’autres non, soit pour des raisons techniques soit parce que tout progrès est plus hasardeux et difficile quand il concerne l’être humain que le commerce ou le transport en taxi. »
Pr Bernard Nordlinger

Vers une prise de conscience

Des quantités massives de données de santé sont générées tous les jours, sur la prévalence et la mortalité des maladies, sur l’efficacité des traitements prescrits ou encore sur l’état de santé des citoyens et leur mode de vie. Une transformation s’opère néanmoins, donnant naissance à des interactions différentes et nouvelles entre le système de soins et le citoyen, patient ou non, qui répondent à des besoins concrets. Cela va des solutions de gestion d’agenda médical, comme Doctolib, ou de partage de dossiers médicaux, aux outils permettant d’analyser la voix et les mouvements fins dans le cadre de la maladie de Parkinson (projet mPower mené par Sage Bionetworks), en passant par les chatbots offrant aux patients la possibilité de poser leurs questions à des “robots conversationnels” et de recevoir des réponses personnalisées, les APIs de traçabilité et de prévention d’épidémies ou encore les outils prédictifs proposant une médecine personnalisée, comme le fait MammaPrint dans l’orientation et le choix des traitements pour les patientes souffrant d’un cancer du sein.

Ces nouveaux outils permettent aux hôpitaux de commencer à sortir du désert numérique qui les coupe des patients dès lors que ceux-ci ne sont plus physiquement présents dans les centres de soin. Cette discordance entre territoire physique et territoire numérique de l’hôpital est reconnue comme une limitation majeure de la qualité des soins et de l’efficacité du suivi des patients. Il faut donc que l’hôpital d’aujourd’hui devienne un acteur hybride, à la fois acteur numérique et de la vie réelle, pour les citoyens. Ainsi, une fois que les professionnels de santé (centres de soins, hôpitaux et soignants) parviendront à offrir aux citoyens la possibilité de rester connectés en dehors même des lieux de soin, la solution d’une interaction en continu avec le patient pourra être mise en place, offrant au système de santé des solutions aux enjeux clefs d’aujourd’hui comme le reporting des effets secondaires, l’éducation et la prévention, l’information sur les maladies, etc.

Au-delà du bénéfice évident acquis grâce à une meilleure interaction patients-médecins pour la qualité des soins et le type de services apportés, ces outils permettent également au monde médical et à la société de collecter de très nombreuses données épidémiologiques et environnementales. Ces dernières sont le terreau nécessaire aux évolutions majeures du système de santé traditionnel, que nous allons présenter. Elles engendrent aussi l’apparition de nombreux défis complexes, dans l’objectif de tendre toujours plus vers l’idéal d’une médecine personnalisée, adaptée à chaque patient et appréhendant chaque maladie comme un cas unique.

« À mon sens le plus grand challenge sera de pouvoir croiser les informations cliniques ou épidémiologiques, c’est-à-dire ce qui est exprimé, le phénotype, avec les données génétiques. On n’y est pas encore. On connaît de plus en plus de biomarqueurs (sur un nombre limité de gènes) qui permettent d’adapter certains traitements anticancéreux à ceux qui ont une chance de pouvoir en profiter. Le séquençage du génome est devenu une pratique courante mais le diagnostic moléculaire n’a que peu d’applications actuelles dans le traitement des cancers. »
Pr Bernard Nordlinger

La révolution, ce n’est pas seulement le diagnostic : c’est le traitement, le suivi, le pronostic et la prévention

La première évolution majeure des données en santé est l’explosion du nombre de données disponibles. La génomique représente une vaste source d’informations pour les médecins et les chercheurs dont ils se sont largement emparés depuis maintenant plusieurs années.

Qui n’a pas entendu parler du Human Genome Project, l’un des, si ce n’est le plus important, événements scientifiques de la génération actuelle ? En cancérologie plus spécifiquement, The Cancer Genome Atlas (TCGA) et l’International Cancer Genome Consortium (ICGC) sont deux grands programmes de séquençage qui ont généré de considérables quantités de données publiques grâce à des cohortes de plusieurs centaines de patients. TCGA, par exemple, a généré une carte multi-dimensionnelle des mutations génétiques pour trente-trois types tumoraux avec séquençage ADN, ARN, RPPA, etc. Ces programmes internationaux ont pour ambition de mieux comprendre le cancer grâce au séquençage du génome complet de dizaines de tumeurs différentes. La communauté scientifique peut alors s’emparer des immenses bases de données ainsi mises à sa disposition pour accélérer la recherche contre le cancer.

L’ère de la génomique représente l’avenir immédiat et à moyen terme mais, parallèlement, d’autres types de données connaissent une importance croissante. Ainsi, le free text, soit l’ensemble des écrits produits par les professionnels de santé, représente une nouvelle source majeure de données permettant de démultiplier les informations disponibles sur la maladie et le traitement. C’est le cas également des données d’imagerie, qui sont de plus en plus nombreuses, grâce notamment à l’amélioration des méthodes d’imagerie médicale. En 2015 aux États-Unis, 80 millions de CT-scan ont été effectués, quand ce chiffre était quatre fois inférieur vingt ans plus tôt.

On assiste également à une augmentation considérable des données dites quantified self, c’est-à-dire collectées et fournies par le citoyen lui-même, parfois à son insu d’ailleurs, par ce que l’on nomme les weareables, ces « objets connectés portables » (le terme n’a pas encore d’équivalent en français) et les applications qui leur sont liées.

Or, lorsque de telles quantités de données sont disponibles, avant de les analyser, l’enjeu est d’abord de les rendre accessibles en mettant à disposition de tous ces jeux de données collectés par les organismes de santé et de recherche, par les institutions publiques et par les entreprises privées détenant les objets connectés, les applications mobiles et autres weareables. Pourquoi le partage des données générées est-il essentiel ? Parce qu’il entraîne une démultiplication de leur impact en permettant à chacun de s’en emparer, de les préprocesser, de les analyser puis de les interpréter. Cette analyse est justement rendue possible aujourd’hui grâce à la création de nouveaux algorithmes de machine learning plus efficaces, plus précis et plus démocratiques. Des projets majeurs comme Watson d’IBM [Article “Un vaste champ d’applications dans la vie de tous les jours” sur le site d’IBM] et Deepmind de Google [DeepMind est une entreprise britannique spécialisée dans l’intelligence artificielle rachetée en 2014 par Google], après avoir fait leurs preuves dans d’autres domaines (aux échecs ou au jeu de Go par exemple), se positionnent tous deux sur le domaine de la santé pour répondre aux immenses quantités de données en circulation. Comme si les champs d’application sur lesquelles ont été exercées ces super-intelligences avaient servi d’entraînement à leur puissance de calcul avant de s’attaquer à des enjeux plus sérieux tels que la santé publique. Le cancer est donc le nouvel ennemi commun de ces intelligences artificielles et de très puissants moyens sont concentrés sur cet objectif par de grands groupes qui se donnent pour ambition de mieux répondre aux besoins des citoyens. En août 2016, Watson a ainsi diagnostiqué un cas de leucémie qui n’avait pas été détecté par l’intelligence humaine [Humanoides, IBM Watson], prouvant que l’intelligence artificielle mise au service de la santé sera source d’amélioration considérable des soins pour les patients et de gain sans précédent en santé publique. L’Université de Tokyo a, quant à elle, indiqué en septembre 2016 que Watson avait aidé à diagnostiquer et à traiter les patients atteints de cancer dans 80% des cas proposés à son analyse (Kawamura, 2016).

Parallèlement, l’accès au cloud et le développement de nouveaux outils ouvrent la possibilité pour chacun de faire, soi-même, ce qui était jusqu’ici réservé aux entreprises détenant les technologies. La diminution du prix et l’augmentation de l’efficience des technologies permettent une véritable démocratisation de leurs usages. De nombreux hébergeurs voient le jour sur le cloud en complément des majors que sont Amazon, Azure et Google, avec notamment des clouds hybrides proposant des services plus personnalisés que chacun peut s’approprier. Toutefois, il convient alors d’être très attentifs à la sécurité des données car beaucoup sont identifiantes, c’est-à-dire qu’en les recoupant, il est possible de retrouver l’identité du patient auprès duquel elles ont été collectées. C’est pourquoi, aujourd’hui, l’hébergement des données est réservé aux acteurs capables de respecter l’article L.1111–8 du Code de la santé publique.

L’article L.1111–8 du Code de la santé publique précise les conditions dans lesquelles les données de santé peuvent être confiées à un hébergeur.
• La personne concernée par les données de santé doit avoir consenti expressément à l’hébergement de ses données.
• L’hébergeur doit être agréé pour son activité.
• L’hébergeur est soumis aux règles de confidentialité prévues à l’article L.1110–4 du Code de la santé publique et à des référentiels d’interopérabilité et de sécurité.
• Lorsque les professionnels de santé ou les établissements de santé hébergent leurs propres données de santé, ils ne sont pas soumis à l’agrément et ne sont pas tenus de recueillir le consentement exprès de l’intéressé pour conserver ces données

Le corollaire de ce partage est que l’on voit se développer de nombreuses initiatives collaboratives qui profitent de ces données ouvertes. Sous le format, le plus souvent, de data challenges, des communautés se fédèrent en ligne et hors ligne, ouvertes à tous, autour d’un objectif commun et dans un cadre partagé. C’est le cas de groupes ou plateformes comme Synapse, Kaggle ou ici d’Epidemium, où s’opèrent partage de données, mise en ligne des outils nécessaires, co-création d’algorithmes, et surtout mise en commun des savoir-faire et des compétences. En développant un travail collaboratif organisé autour de l’épidémiologie du cancer, le programme Epidemium et son Challenge4Cancer ont montré combien la recherche scientifique et les patients pouvaient bénéficier de plus d’interdisciplinarité et d’ouverture. C’est ce genre de programmes collaboratifs qui peuvent changer la donne pour le milieu de la recherche traditionnelle, en lui apportant ce dont il manque aujourd’hui : des expertises plus variées, puisqu’un graphiste y aura autant sa place qu’un data scientist, la mise en commun des savoir-faire sans enjeu de pouvoir et le partage sans restriction des résultats avec le reste de la communauté.

Vers une médecine personnalisée,un parcours semé de défis

Pour autant aujourd’hui, aucun outil, aucune plateforme, n’a encore changé la pratique de tous les jours pour le monde de la santé. Comment alors ouvrir la voie à une véritable médecine personnalisée ? Est-ce utopique d’imaginer une médecine où chacun aurait accès à des outils permettant de choisir son traitement en fonction des meilleures prédictions faites grâce au big data, prenant en compte un ensemble de critères variés allant de la génétique au mode d’alimentation ? Ou encore de dépister de manière précoce la maladie d’un individu grâce aux requêtes qu’il a effectuées sur les moteurs de recherche en ligne ? Ces deux cas particuliers existent déjà mais restent isolés. Pour les démocratiser, de nombreux défis sont à relever car, si les programmes de traitement personnalisé font preuve de résultats concluants, laissant espérer de belles promesses, ils restent encore confidentiels et les quelques succès individuels obtenus sont loin d’être une généralité pour les patients.

Les défis pour parvenir à des résultats positifs en médecine personnalisée sont d’abord techniques : comment tirer des enseignements utiles de données très dispersées ? Les données collectées sont hétérogènes par leur nature (génomiques, physiologiques, biologiques, sociales, environnementales…), leur format (texte, valeurs numériques, signaux, images 2D et 3D, séquences génomiques…), leur dispersion au sein de plusieurs systèmes d’information (groupes hospitaliers, laboratoires de recherche, bases publiques, sociétés privées…). Or, en big data, il n’y a pas d’intelligence sans apprentissage. La grande fragmentation des données demande donc d’inventer des systèmes complexes afin de réussir l’intégration de données de nature et de source différentes. Dans la même logique, on voit également se développer un besoin croissant en algorithmes et en capacité de stockage et de calcul de ces bases de données.

Sur le plan technique également, l’un des problèmes soulevés est que les structures de santé, volontaires face à l’arrivée de telles innovations, ont toutes développé leur propre système de santé indépendamment de celui des autres structures. Les systèmes ainsi créés ne sont donc pas interopérables, ce qui représente un frein important au partage des données. Comment s’assurer en effet, lorsqu’un patient effectue des consultations auprès de structures différentes, que ses données sont effectivement transmises sans perte ni problème de format, utilisables par des professionnels de santé n’ayant pas forcément le temps ni la possibilité d’échanger entre eux ?

Rendre le citoyen maître de ses données et acteur de leur partage est également un défi majeur. C’est ce qu’on appelle le patient empowerment. Dans un objectif de santé publique, chacun devrait être conscient de la richesse des données qu’il crée au quotidien et de leur utilité potentielle pour le monde médical, la compréhension et donc le traitement de maladies complexes comme le cancer. Idéalement, demain, les programmes de recherche n’auront plus besoin de créer des cohortes de citoyens volontaires pour donner leurs données, mais pourront puiser dans la richesse des données pré-existantes grâce à la sensibilisation des citoyens au quotidien.

« Le problème concerne le recueil des données personnelles, consenti ou non, quand on sait les difficultés d’une véritable anonymisation, mais aussi l’usage de ces données et pas seulement pour les compagnies d’assurance, pour prendre l’exemple le plus courant. »
Pr Bernard Nordlinger

Pour réussir à disposer de données suffisantes en nombre et en diversité, les institutions doivent alors s’emparer du sujet de l’éthique. En effet, l’utilisation des données issues des essais cliniques ou collectées lors du parcours de soin entraîne une obligation d’information pour le patient : il est nécessaire d’expliquer quelles données seront collectées, comment elles seront anonymisées, dans quel cadre elles seront stockées et pour quel objectif elles seront amenées à être utilisées. Le travail de clarification et d’éducation est essentiel afin que le grand public comprenne l’intérêt que représentent leurs données pour la recherche et la santé publique. Ces principes éthiques de transparence dans le recueil, l’analyse et le traitement des données nécessitent donc une surcharge de travail et de processus parfois lourds à supporter pour le système de santé.

Collecter des masses de données en donnant confiance aux citoyens pour les partager représente enfin un défi de sécurité. Pas forcément, comme il est habituel de le penser, celui du piratage des données, mais plutôt celui de leur non-corruption. En 1996, les États-Unis ont instauré le Health Insurance Portability & Accountability Act (HIPAA) [European Union Agency for Network and Information Security (ENISA), Health Insurance Portability and Accountability Act] qui impose la mise en oeuvre de mesures de sécurité et de respect de la vie privée pour la création, la conservation et la transmission des données de santé personnelles. De son côté, l’Union européenne a adopté en 1995 la Directive sur la protection des données, créant un environnement homogène dans toute l’UE. Cependant, si la collecte et le traitement des données personnelles sont bien soumis à des obligations, une loi ne peut empêcher une faille technologique ou des malveillants. Une solution innovante intéressante apparaît alors avec la promesse du blockchain qui pourrait être mis en place dans tout le système de santé (lire aussi Schuyler, 2016). Toutefois, cette technologie est-elle mature ? Et surtout, le système de santé est-il prêt à opérer une telle innovation dans son mode de fonctionnement ? Il faudra probablement plusieurs années avant que l’on assiste à une généralisation du blockchain dans le domaine la santé mais cela n’en reste pas moins un bel objectif à poursuivre.

À l’heure de l’ubérisation croissante de très nombreux domaines économiques, on tarde toujours à voir apparaître les licornes en médecine, ces start-ups des nouvelles technologies, très innovantes, à la croissance rapide et qui ont atteint un milliard de dollars de valorisation. Le milieu médical nécessite, en effet, de conserver un compromis important entre les innovations et leurs usages, qui limite l’implémentation hasardeuse des nouvelles technologies. Bien entendu, le big data est là pour accroître l’efficience des métiers, des traitements et de la prévention, que ce soit par une meilleure prédiction, la diminution des coûts par la limitation des actes ou examens inutiles, etc., ou par une meilleure connaissance des maladies.

Barbara Govin - CC BY NC ND

Toutefois, l’usage des technologies du big data ne peut pas se faire au prix d’un moindre niveau de preuve, ce qui signifierait un moindre niveau de validation des résultats scientifiques, ou d’une moindre sécurité des données. C’est pour cette raison que l’implémentation du big data en santé prend du temps. Nombreux sont ceux qui s’alarment pourtant aujourd’hui car les aspects concrets des promesses de médecine de précision tardent à venir. Cependant, le mouvement est bel et bien lancé et l’on ne reviendra pas en arrière. C’est un mouvement de fond dont l’empowerment des patients en particulier sera une composante très forte, poussant le monde médical à des performances meilleures, plus rationnelles et plus ouvertes. Nous n’en sommes qu’au début de l’histoire.


Bibliographie :

  • Kawamura T. (2016). “Big data system shows promise in helping cancer patients at Todai”, The Asahi Shimbun, 19 septembre 2016, disponible en ligne, dernière consultation le 30 novembre 2016.
  • Schuyler D. (2016). “Is the Blockchain a Potential Cure for Securing Health care data?” dans le site web Leavitt Partners, disponible en ligne, dernière consultation le 30 novembre 2016.

Auteurs :

FERTÉ Charles (Dr), Membre du Comité scientifique d’Epidemium : Oncologue médical à GR, Digital Associate Editor de Annals of Oncology, et passionné par les Big Data et Machine learning.

NORDLINGER Bernard (Pr), Membre du Comité d’éthique indépendant d’Epidemium : Service de Chirurgie Digestive et Oncologique à l’Hôpital Ambroise Paré et membre de l’Académie nationale de médecine.

Retrouvez la version web du Livre blanc.

Rejoignez la communauté Meetup, Twitter & Facebook.