Image for post
Image for post

Un Google 3.0 du cancer : est-ce possible ? | MU 01.03.2016

Avec Alain Livartowski, médecin à l’Institut Curie dans le Département d’oncologie médicale

Epidemium
Epidemium
Jan 20, 2017 · 18 min read

Compte-rendu du Meetup réalisé à La Paillasse, le 01 mars 2016.

Trois questions à…

Qu’entendez-vous par Google du cancer ?

Est-ce un rêve ?

Pourquoi ne pas coder les données à la source ?

De nombreuses équipes travaillent à ces projets qui soulèvent des défis humains, organisationnels, techniques, scientifiques et éthiques. D’où des coopérations nécessaires, qui vont des mathématiques aux sciences sociales en passant par la médecine, la biologie, l’informatique, la bioinformatique et les problèmes juridiques. Une nécessité : la participation à la réflexion des citoyens et des malades.


Image for post
Image for post

Compte-rendu du Meetup

Introduction

Pourquoi le Google 3.0 du cancer ?

Aujourd’hui, on est dans le web 3.0, dans le web des objets connectés et dans le web sémantique (ou web des données) avec la possibilité d’extraire les données stockées dans les ordinateurs pour en faire émerger de la connaissance.

Le web sémantique permet d’utiliser les technologies web, qui permettent d’être indépendant des systèmes d’information du fait notamment d’une universalité de langage et des technologies qui sont ainsi utilisables à large échelle, rendant possible une communication mondiale. De plus, il facilite aussi l’analyse des contenus. La plupart des informations étant des données textuelles, si l’on voulait tout structurer, on perdrait des informations. Par le web sémantique, il est possible d’utiliser l’information à partir de données non structurées.

Le Cancer

Par exemple, on peut traiter les maladies infectieuses sans avoir la certitude de la bactérie avec un traitement probabiliste. En fonction des signes cliniques et éventuellement de l’épidémiologie, on peut décider d’un traitement. En cas d’absence totale d’information, il est possible de faire un traitement à large spectre.

L’autre exemple de diagnostic de certitude est la grossesse. Néanmoins, pour le cancer, le diagnostic de certitude connaît le début mais pas l’évolution. Pour la grossesse, on connaît la fin mais pas le début. Des collègues, qui étudient l’autisme, travaillent sur ces mêmes sujets, ce qui est infiniment plus difficile parce qu’on ne connaît pas forcément la bonne définition de cette maladie.

Un autre avantage du cancer, c’est que des données sont disponibles du fait de la prise en charge essentiellement hospitalière de la maladie. Toutefois, comme le traitement tend à se faire de plus en plus en dehors de l’hôpital, la question de la récupération des données extra hospitalières va se poser.

De plus, il y a eu des progrès considérables dans la prise en charge du cancer et dans le traitement. Par exemple, si on prend le cas du cancer du poumon, avant on parlait de deux types de cancer : le cancer à grandes cellules et le cancer à petites cellules. Il y avait donc deux traitements : un pour les petites et un pour les grandes cellules. Or il y avait des gens qui traitaient de la même façon petites et grandes en ayant le même résultat.

Aujourd’hui, le cancer du poumon c’est trente à quarante maladies différentes dont certaines sont des maladies orphelines. Si ce sont des maladies de plus en plus orphelines, on entrevoit la nécessité de coopérer, pas seulement dans un centre ou entre plusieurs centres mais à un niveau beaucoup plus large. C’est en partie là l’intérêt de ces technologies qui facilitent une collaboration internationale permettant de répondre à l’éclatement du cancer en une multitude de maladies orphelines.

Ces technologies, issues du web, changent les possibilités. Le problème n’est pas tant celui de la technique mais de l’accès aux données.

La définition du problème

Avec ce projet, il s’agit, dans le domaine du cancer, d’adresser à un moteur de recherche des requêtes simples et d’obtenir une réponse simple et rapide, comme avec Google.

Le problème initial est donc simple mais il peut se complexifier par la suite. Non seulement, il y a des données cliniques mais aussi des données génomiques qui ne sont pas forcément stockées au même endroit. Les données de la recherche et les données de l’hôpital devront pouvoir être utilisées indifféremment par les chercheurs et par les médecins.

Le cahier des charges pour ConsSoRe était le suivant : 3 questions auxquelles on ne savait pas et ne sait pas répondre. Par exemple, on a des patients ayant un mélanome de la choroïde, qui ont un risque génétique élevé et qui sont vivants sans événement métastatique à 5 ans, sur lequel on a des prélèvements qui sont congelés. Le médecin ou le chercheur voudrait poser cette question d’une façon aussi simple qu’il le fait sur Google : avoir une liste de patients et extraire des informations structurées sur l’ensemble des informations.

Le challenge adressé sur le plan de la médecine des données est multiple :

  • Pouvoir requêter toutes les informations enfouies dans la base de données ;
  • Pouvoir les consulter sur écran ;
  • Pouvoir les analyser de façon statistique ;
  • Extraire des informations ;
  • Partager ces données avec d’autres (les études mais aussi des données cliniques).

Or le big data pose plusieurs problèmes : il y a une quantité très importante de données, qui sont très hétérogènes, dont on ne contrôle pas nécessairement la qualité et, de plus, qui sont isolées dans des systèmes isolés les uns des autres.

Comment faire en sorte que ces données hétérogènes, isolées et de qualité inégale soient utilisables et utilisées ?

L’initiative d’UNICANCER : ConSoRe

Les objectifs sont multiples. Il s’agit de :

  • Dire que, pour chaque patient atteint de cancer, on doit pouvoir structurer l’information afin de créer, par exemple, des cohortes de patients pour faire des analyses rétrospectives, mener une interrogation par centre et inter-centres par le Web, extraire une information stucturée ou non structurée des SIH (Système d’Information Hospitalier) ;
  • Assurer le lien entre les données cliniques, les images, les données génomiques, immunologiques, épigénétiques, etc ;
  • Adresser n’importe quelle requête : poser n’importe quelle question sur n’importe quel sujet (simple ou complexe, sur les données du centre ou d’autres, etc.) ;
  • Faire tout cela en un clic ;
  • Extraire les données structurées pertinentes et avoir la possibilité d’échanger avec d’autres.

Le cahier des charges est le suivant : avoir un écran de type Google, pouvoir faire une requête en un clic, obtenir le résultat en moins d’une seconde.

On constate qu’on est confronté aux mêmes problématiques que les chercheurs qui travaillent sur l’autisme, le cinéma, la musique, c’est-à-dire d’avoir des données (images, textes, structurées), de les ranger dans une base de données, de les analyser avec différents outils.

2013–2014 : la POC (proof of concept) ou V0

Ce projet souhaite utiliser des bases de données structurées (PMSI, BioBanques, Chimiothérapie, Démographie, Fiche tumeur) et des données complètement textuelles (dossier médical), soit 85% de données structurées et 15% de données non structurées.

Il y a quatre centres pilotes : l’Institut Curie (Paris-Saint-Cloud), le Centre Georges-François Leclerc (Dijon), l’Institut régional du Cancer (Montpellier), le Centre Léon Bérard (Lyon).

Aujourd’hui, on a pu tirer différents enseignements de la POC. Il est possible d’utiliser des données structurées et non structurées, et de structurer celles qui ne le sont pas, même si les SIH (Systèmes d’Information Hospitaliers) et les modèles de documents sont différents. De plus, il est également possible d’interroger à distance avec un temps de réponse immédiat. On a, dans le centre, des données nominatives et, quand c’est inter-centre, un comptage simple.

Ainsi, la V0 est plutôt une réussite technique mais un échec fonctionnel. La mise en place technique a été plutôt facile mais il y a trop de bruit, les interrogations possibles sont limitées et l’interface n’est pas encore conviviale.

Vers ConSoRe V1 et ConSoRe+

À partir de la POC, on a pu tirer différents enseignements :

  • Il faut une interface plus intuitive ;
  • Si l’on veut extraire de l’information structurée, il faut mieux modéliser la maladie et faire une extraction supervisée (connaître le fichier résultat que l’on veut avoir à la sortie) ;
  • Il est nécessaire d’améliorer la qualité des données (limiter le bruit, éviter les faux positifs) ;
  • Il faut orienter le projet vers les outils du Web sémantique pour pouvoir poser n’importe quel type de question ;
  • Il faut monter un consortium : réunir des gens et des compétences hors des centres de lutte contre le cancer, des chercheurs dans d’autres domaines qui sont confrontés aux mêmes problèmes.

Il est assez simple de modéliser le cancer. Il y a une tumeur initiale, les éléments qui arrivent avant la tumeur (antécédents, facteurs de risque, …), la tumeur locale, la phase de surveillance, la rémission, des récidives locales et, parfois, une maladie métastatique. Cela se complique quand on transforme cette modélisation avec les documents disponibles. Par exemple, dans l’événement tumoral initial, il y a beaucoup de choses qui se passent : diagnostics, prélèvements, radiologie, … Ainsi, avoir un système qui réponde en un clic, en moins d’une seconde, est compliqué.

Quelques sujets à explorer — des problèmes à résoudre

Un des problèmes rencontrés est comment, à partir des données textuelles disponibles, dégager des données structurées pour pouvoir faire une analyse. Il existe plusieurs possibilités :

  • L’extraction simple et l’extraction supervisée : on prend un mot qu’on peut comparer avec un référentiel mais il y a la nécessité de gérer les synonymes, les approximations, la syntaxe, …
  • Créer des règles : par exemple, création de données inférentes ; regroupement ou suppression d’une entité.
  • Les cartouches sémantiques : à partir d’une expression syntaxique et des données structurées (pattern). Par exemple : cartouche de négation, antécédents, récidives, métastase.
  • La pondération et les seuils : les sources n’ont pas toutes les mêmes valeurs (poids) et présence ou non de “hotspots” statistiques (fenêtre dans le temps)
  • La traçabilité et la mesure de la qualité : mesurer les résultats afin de pouvoir adapter les règles, les pondérations, etc. et présence d’un indice de confiance (comparer à un échantillon ; le machine learning : va permettre une amélioration automatique).

Les outils d’échanges et de partage

Idéalement, pour l’échange, il faudrait avoir une interopérabilité technique, les ordinateurs se parlent et se comprennent (format d’échange commun, etc.), et une interopérabilité sémantique, les hommes se parlent et se comprennent (utilisation des mêmes terminologies, présence de standards communs, etc.). Néanmoins, ce n’est peut-être pas une nécessité. La force de ces technologies, c’est qu’au départ les choses ne sont pas interopérables. Certes, si on peut coder les informations à la source, c’est mieux ; par exemple : Sexe = 1 ; Sexe = homme ; Sexe = masculin. Toutefois, en parcourant un dossier, les ordinateurs savent très vite si l’individu est un homme ou une femme.

La sécurité, la confidentialité, la qualité des données

Tout cela pose énormément de problèmes de sécurité, d’éthique, de droit ; des problèmes d’acceptabilité par les médecins, les citoyens, le politique. Il y a quantité de problèmes sociétaux. Il faut traiter ces sujets en même temps que les problèmes techniques.

Par exemple, pour l’aspect éthique et réglementaire se pose le problème du consentement, de la validation par la CNIL, de la question de la confidentialité des données génomiques, de la propriété des données.

Il y a également la question de la qualité des données, qui est essentielle pour obtenir la confiance des utilisateurs. Il y a de nombreuses méthodes à explorer.

De ConSoRe à ConSoRe+

Consore est un projet inter-centres de lutte contre le cancer. Or cela a des inconvénients. C’est une initiative d’UniCancer, des centres de lutte contre le cancer, et cette initiative a boosté le projet. Il y a un financement collaboratif. Néanmoins, c’est limité aux centres de lutte contre le cancer en France. De plus, il s’agit d’un modèle propriétaire : fait par les centres, pour les centres. Enfin, il repose sur un moteur de recherche avec un nombre d’index limité (patient, tumeur, prélèvement) et des vues pré-déterminées.

ConSoRe+ tente de dépasser cela avec la volonté de ne pas rester entre centres, de ne pas avoir de limitation dans les requêtes, et avec une compréhension de la nécessité de s’ouvrir sur le monde et donc utiliser des technologies non propriétaires qui permettront certes d’échanger avec ces centres de lutte contre le cancer mais aussi avec d’autres centres académiques à travers le monde et éventuellement avec d’autres infrastructures dans le cadre des open data.

Les données de la ville

Aujourd’hui, on constate l’émergence de technologies qui donnent de l’information au patient.

L’application myCurie permet aujourd’hui au patient d’avoir des informations sur son smartphone à propos de ses rendez-vous, de ses traitements, etc., avec des informations personnalisées.

Dans un futur proche, le patient pourra peut-être mesurer, récupérer directement via son clavier, avec des systèmes d’alerte, par des objets connectés, etc., des informations de la ville.

Si on se borne aux informations strictement hospitalières, on va manquer quelque chose car il y a beaucoup d’informations qui peuvent venir des patients eux-mêmes. Il faut ainsi pouvoir intégrer les données hospitalières avec les données de la recherche mais également les données de la ville. C’est un véritable enjeu.

Conclusion

Google 3.0 du cancer : pour quoi faire ?

D’abord, il s’agit de disposer d’une liste de patients, de tumeurs, de spécimens biologiques sur critères et de pouvoir en extraire une information structurée. Poser une question simplement et obtenir une réponse immédiate.

Un des gros enjeux, c’est la prédiction : pouvoir analyser toutes les données concernant un patient (génomiques, cliniques, les antécédents), regarder s’il y a des patients similaires dans l’hôpital ou à l’extérieur et examiner ce qui s’est passé. Calculer également le risque de récidive d’une tumeur à partir d’un grand volume de données pour, par exemple, ajuster la surveillance qui va être mise en place ou encore savoir s’il faut faire une chimiothérapie ou non.

Google 3.0 permettrait également d’aider la recherche, l’inclusion dans les essais ; d’aider le quotidien (préparation des RCP, synthèse automatique) ; d’aider le patient dans la vie (l’information sur la prédiction est très importante) ; de rendre possible la eSanté, le recueil des signes et des symptômes ; d’aider à la formation des médecins.


Échange avec le public

Image for post
Image for post
Illustration : Barbara Govin

Public : Retour sur l’analogie avec Google : Google a tué tous ses concurrents du fait de son algorithme de recommandation, de la pertinence de ses résultats de recherche. Avez-vous la même approche ?

Toutefois, c’est évident qu’il y a des données pour lesquelles on ne parviendra pas à un tel taux du fait de leur nature même. Par exemple, c’est le cas de la réponse au traitement. Même un médecin quand il lit un dossier médical, il ne comprend pas toujours, notamment du fait de l’interprétation des différents médecins qui sont intervenus. Mais pour d’autres informations, c’est possible.

Il faudra donner aux médecins une information sur la qualité de la donnée également. La POC, n’a pas été mise à la disposition des médecins car elle avait un taux d’erreur trop élevé. La qualité des données est cruciale.

Public : Sur la recherche, Google utilisait l’idée de recherche par mots clefs pour faire une bonne indexation mais des sites webs ont joué sur les mots clefs pour être référencés dans les premiers. Serez-vous capables d’avoir une rigueur scientifique pour mettre les mots clefs importants en tête de liste ou avec abstract pour mieux indexer les recherches scientifiques ? Y aura-t-il cette même demande pour les médecins et les laboratoires de recherche ?

Public : Le deep learning ne vient-il pas en opposition avec un ordinateur qui apprend, avec une interaction, avec un modèle qui petit à petit créé lui-même une architecture, un raisonnement qui lui permet de trouver les bonnes solutions ?

Public : Comment procédez-vous quant à la désidentification de toutes les données ?

De plus, la désidentification est fondamentale car il est possible d’être retoqué par la CNIL même si elles ne sont qu’indirectement nominatives.

Public : Avez-vous connaissance d’un projet équivalent à l’international et quel est son niveau de maturité par rapport à vous ?

Public : Même si les données sont agrégées, il est quasiment possible de les réidentifier. Que faire ?

Par exemple, on peut imaginer qu’un assureur, utilisant des données personnelles, tombe sous le coup de la loi et ait à payer une amende importante et dissuasive. C’est la loi qui doit intervenir.

Public : En terme de calendrier, à quelle échéance le service sera-t-il disponible ?

Public : C’est un projet qui va utiliser de la donnée mais qui va aussi en générer (requêtes, résultats donnés). Avez-vous prévu une sorte de feedbacks par rapport à la pertinence de certains résultats ?

ConSoRe dispose d’un système back office qui enregistre et permet d’analyser les habitudes de recherche utilisateurs, les réponses produites. L’objectif est de pouvoir étudier les différentes recherches faites, les résultats produits et d’affiner tous les résultats qu’on obtiendra par la suite car on sait que la pertinence des résultats ne sera pas de 100% dans l’immédiat. On dispose d’un panel d’utilisateurs témoin qui n’est, aujourd’hui, pas suffisant pour pouvoir exploiter au mieux les résultats. Le système back office doit permettre de faire ça.

Image for post
Image for post

Rejoignez la communauté Meetup, Twitter & Facebook.

EPIDEMIUM

Inclusive and community-based open science program…

Epidemium

Written by

Epidemium

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science

EPIDEMIUM

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges

Epidemium

Written by

Epidemium

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science

EPIDEMIUM

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch

Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore

Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store