Un Google 3.0 du cancer : est-ce possible ? | MU 01.03.2016

Avec Alain Livartowski, médecin à l’Institut Curie dans le Département d’oncologie médicale

Epidemium
Epidemium
Jan 20, 2017 · 18 min read

Trois questions à…

Qu’entendez-vous par Google du cancer ?

AL : L’ensemble hospitalier de l’Institut Curie dispose d’un dossier électronique complet depuis 15 ans mais ces informations, accumulées, conservées, archivées, sont peu utilisées pour la recherche. Un Google du cancer consiste à pouvoir poser n’importe quelle question depuis son poste et obtenir une réponse immédiate. Par exemple, obtenir une liste de dossiers qui répondent à certains critères cliniques ou biologiques, voire génomiques. Cela consiste à aller plus loin comme extraire des données structurées afin de faire des analyses statistiques de façon totalement anonyme. Pour cela, il faut évaluer la qualité des données extraites pour mesurer le bruit et les silences. Il faut pouvoir questionner les données recueillies pour ces patients en dehors de l’hôpital ou que le patient aura lui-même recueillies, voire pouvoir lancer la même requête vers d’autres hôpitaux. Évidemment, cela se fait par le biais d’une interface homme-machine conviviale, d’où la comparaison avec Google. Tout ceci dans le respect strict de la vie privée et en garantissant que cela n’aura aucune conséquence d’aucune sorte sur la personne malade. Simple !

Est-ce un rêve ?

AL : Le volume d’informations numériques collectées chaque jour dans les disques durs des ordinateurs est considérable. Pour autant, sommes-nous capables d’en extraire des données exploitables, de faire progresser nos connaissances pour améliorer la prise en charge des patients atteints de cancer ? Sommes-nous capables de fournir une information clinique exploitable aux chercheurs qui travaillent sur les voies de signalisation et les mécanismes de la cancérogenèse afin qu’ils puissent conforter leurs hypothèses sur des cohortes de patients ? La réponse est aujourd’hui négative et nous devons faire en sorte que la réponse soit positive, que ça ne soit plus un rêve mais un défi qu’il nous faut relever. C’est sûrement cela que l’on appelle big data, qui consiste à utiliser des technologies permettant de créer de la connaissance. Le projet Big Data de l’Institut Curie consiste à réussir l’intégration des données de sources multiples. Le projet consiste à modéliser la maladie cancéreuse basé sur des ontologies en tenant compte de la temporalité pour mieux organiser, exploiter les données et interagir avec d’autres. La construction d’une base de connaissance s’appuie sur les technologies du Web sémantique (Web 3.0). Pour analyser et échanger avec d’autres SIRIC ou d’autres Comprehensive Cancer Centers en France ou de par le monde, nous devrons utiliser des suites logicielles libres comme i2b2/tranSMART/Shrine.

Pourquoi ne pas coder les données à la source ?

AL : On peut coder les données à la source, dans certains cas. Par exemple, il a été démontré qu’il était possible de coder les comptes-rendus d’anatomo-pathologie. Les comptes-rendus textuels peuvent être remplacés par des comptes-rendus standardisés et structurés (CRSS). Mais en clinique, ce n’est pas toujours possible, même non souhaitable tant des données qui paraissent futiles seront en fait très utiles pour la prise en charge clinique. Le projet ConSoRe est l’acronyme de Continuum Soins Recherche, piloté par UNICANCER, sera déployé en 2016 dans plusieurs CLCC. Il consiste à réaliser une structuration des données médicales hospitalières et permettra de poser des requêtes, simples ou complexes, de naviguer dans les différents dossiers, d’extraire des données structurées, de les analyser et de les partager entre CLCC. À titre d’exemple, il permettra de mieux exploiter les spécimens conservés dans les Centres de ressources biologiques en les annotant de façon dynamique avec les données cliniques et celles issues des analyses de biologie moléculaire et du séquençage haut débit. Parallèlement, nous nous appuyons sur le projet OSIRIS piloté par l’INCa et coordonné par le SIRIC de Lyon et qui est un travail collégial dont l’objet est d’améliorer l’interopérabilité des systèmes, le partage des données cliniques et omics (NGS et CGH).


Compte-rendu du Meetup

Introduction

C’est un vrai challenge de démontrer qu’un Google 3.0 du cancer est possible ; il est nécessaire de prendre en compte la vitesse à laquelle les choses changent.

Pourquoi le Google 3.0 du cancer ?

La première caractéristique de Google est la notion de simplicité et c’est aussi ce qui fait sa force : une seule barre de recherche et un fond blanc. Dans le projet ConSoRe (Continuum Soin-Recherche), qu’UNICANCER développe, et dont l’Institut Curie est le site pilote, on retrouve cette même volonté d’avoir un écran utilisateur simple et épuré : une ligne. Il s’agit d’atteindre la simplicité d’utilisation de Google.

Le Cancer

Par rapport à d’autres pathologies, l’étude du cancer comporte un énorme avantage : il y a toujours un diagnostic de certitude. Il n’est pas possible de traiter un cancer sans ce diagnostic de certitude : il faut un diagnostic anatomo-pathologique. Or, en médecine, il n’y a pas beaucoup de cas où ce type de diagnostic est possible.

La définition du problème

Le problème est que l’on est au-dessus d’un océan de données. Par exemple, à l’Institut Curie il y a 400 000 patients. Cela correspond à 10 millions de documents, 400 millions de concepts. Il y a 500 000 prélèvements conservés dans les centres de ressources biologiques, des informations sur les images numérisées depuis 2004, des informations plus structurées sur les traitements, la chimiothérapie, un début d’information sur le génome, une possibilité de séquencer les tumeurs, … Or, lorsqu’on cherche à poser une question simple, c’est impossible. On rentre des données dans les ordinateurs, sans être capable de les faire ressortir.

  • Pouvoir les consulter sur écran ;
  • Pouvoir les analyser de façon statistique ;
  • Extraire des informations ;
  • Partager ces données avec d’autres (les études mais aussi des données cliniques).

L’initiative d’UNICANCER : ConSoRe

Les objectifs

  • Assurer le lien entre les données cliniques, les images, les données génomiques, immunologiques, épigénétiques, etc ;
  • Adresser n’importe quelle requête : poser n’importe quelle question sur n’importe quel sujet (simple ou complexe, sur les données du centre ou d’autres, etc.) ;
  • Faire tout cela en un clic ;
  • Extraire les données structurées pertinentes et avoir la possibilité d’échanger avec d’autres.
  • Si l’on veut extraire de l’information structurée, il faut mieux modéliser la maladie et faire une extraction supervisée (connaître le fichier résultat que l’on veut avoir à la sortie) ;
  • Il est nécessaire d’améliorer la qualité des données (limiter le bruit, éviter les faux positifs) ;
  • Il faut orienter le projet vers les outils du Web sémantique pour pouvoir poser n’importe quel type de question ;
  • Il faut monter un consortium : réunir des gens et des compétences hors des centres de lutte contre le cancer, des chercheurs dans d’autres domaines qui sont confrontés aux mêmes problèmes.

Quelques sujets à explorer — des problèmes à résoudre

Les possibilités pour structurer l’information

  • Créer des règles : par exemple, création de données inférentes ; regroupement ou suppression d’une entité.
  • Les cartouches sémantiques : à partir d’une expression syntaxique et des données structurées (pattern). Par exemple : cartouche de négation, antécédents, récidives, métastase.
  • La pondération et les seuils : les sources n’ont pas toutes les mêmes valeurs (poids) et présence ou non de “hotspots” statistiques (fenêtre dans le temps)
  • La traçabilité et la mesure de la qualité : mesurer les résultats afin de pouvoir adapter les règles, les pondérations, etc. et présence d’un indice de confiance (comparer à un échantillon ; le machine learning : va permettre une amélioration automatique).

Conclusion

On est capable de créer des systèmes qui peuvent poser n’importe quelle question mais il faut que la donnée soit dans les ordinateurs, il faut que cela soit simple et intuitif, il faut qu’elle soit pertinente. Il faut qu’on puisse produire des données structurées car on aura besoin de données pour l’analyse statistique. Enfin, il faut pouvoir les partager entre structures de recherche.


Échange avec le public

Illustration : Barbara Govin

Public : Retour sur l’analogie avec Google : Google a tué tous ses concurrents du fait de son algorithme de recommandation, de la pertinence de ses résultats de recherche. Avez-vous la même approche ?

AL : L’analogie avec Google ne concerne que l’interface homme–machine pour poser une question mais elle s’arrête là. Si l’on met un outil dans les mains des médecins et qu’en regardant les trois premières pages, ce qu’on fait avec Google, il y a 20% d’erreur, ce n’est pas acceptable. La confiance dans le système est primordiale. Il faut être capable de donner des données justes à 99% et non à 70%. 70% c’est acceptable pour la météo, pour une recherche sur Google mais pas en médecine.

Public : Sur la recherche, Google utilisait l’idée de recherche par mots clefs pour faire une bonne indexation mais des sites webs ont joué sur les mots clefs pour être référencés dans les premiers. Serez-vous capables d’avoir une rigueur scientifique pour mettre les mots clefs importants en tête de liste ou avec abstract pour mieux indexer les recherches scientifiques ? Y aura-t-il cette même demande pour les médecins et les laboratoires de recherche ?

AL : Oui mais on ne sait pas comment on va faire exactement. Par exemple, une information qui vient d’un dossier structuré dont on sait qu’il a été revu et a une importance plus grande et on pourra lui apporter une valeur informationnelle élevée. Par contre, à un compte-rendu de médecin mal tapé, etc., on ne lui donnera pas la même valeur. Pour pouvoir donner une information de qualité, on ne va pas utiliser les données de façon équivalente.

Public : Le deep learning ne vient-il pas en opposition avec un ordinateur qui apprend, avec une interaction, avec un modèle qui petit à petit créé lui-même une architecture, un raisonnement qui lui permet de trouver les bonnes solutions ?

AL : Depuis le début du projet ConSoRe, on déjà changé deux fois de stratégie et on sera peut-être obligé de changer à nouveau si l’évolution de la technologie permet de faire mieux. Pour cette raison, il est nécessaire de travailler avec des chercheurs en informatique et en mathématiques. Les choses vont extrêmement vite. Il faut être très réactif quant aux évolutions possibles.

Public : Comment procédez-vous quant à la désidentification de toutes les données ?

AL : La désidentification des données de l’hôpital est possible mais complexe. Cette désidentification est notamment nécessaire pour répondre au problème de l’accès aux données : il faut désidentifier les données car elles sortiront de l’hôpital.

Public : Avez-vous connaissance d’un projet équivalent à l’international et quel est son niveau de maturité par rapport à vous ?

AL : Oui, il y a un projet de ce type porté par Gustave Roussy qui travaille sur les mêmes sujets. Néanmoins, l’Institut Curie s’est débrouillé pour que, à part Gustave Roussy, les équipes qui travaillent dans ce domaine fassent parties du consortium. C’est nécessaire pour être plus fort sinon ce sont de très petites équipes face à un sujet très complexe. Il y a un intérêt à travailler ensemble. Quant à la dimension internationale, la France, même s’il y a des projets similaires dans le monde, a des atouts énormes.

Public : Même si les données sont agrégées, il est quasiment possible de les réidentifier. Que faire ?

AL : La CNIL est bien consciente du problème. Les nouvelles technologies qui apparaissent, par définition, n’existaient pas il y a cinq ou dix ans. Le problème est donc complètement différent aujourd’hui. Il n’est d’ailleurs pas que national. Les réponses doivent être internationales. Il faut discuter avec la CNIL pour essayer de trouver, avec elle, les bonnes techniques pour protéger chaque individu. Ce problème d’anonymisation complète n’est pas résolu aujourd’hui. Il va falloir le faire sinon le citoyen pourra refuser que ses données soient utilisées ou bien, le législateur l’interdira. Il faut établir les conditions de la confiance pour éviter le risque.

Public : En terme de calendrier, à quelle échéance le service sera-t-il disponible ?

AL : ConSoRe, la version d’Unicancer, est en cours de réalisation. ConSoRe V1 pour cinq hôpitaux est prévu pour fin 2016. ConSoRe+, pour l’Institut Curie uniquement, c’est également pour fin 2016 et, si cela fonctionne bien, il sera proposé à la communauté scientifique en 2017.

Public : C’est un projet qui va utiliser de la donnée mais qui va aussi en générer (requêtes, résultats donnés). Avez-vous prévu une sorte de feedbacks par rapport à la pertinence de certains résultats ?

AL : Quand cela sera mis en place et entre les mains des médecins et des chercheurs, et que les données seront ouvertes, que les procédés d’interrogation seront quasi infinis, je fais confiance aux utilisateurs pour imaginer la création de nouvelles entités. J’ai le sentiment qu’on va voir apparaître de nouvelles maladies car on pourra mieux identifier certaines maladies, dont on a aujourd’hui seulement l’expérience en tant que médecin. Il y aura création de nouvelles entités et de nouvelles maladies.

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges

Epidemium

Written by

Epidemium

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science

EPIDEMIUM

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges