Open data en cancérologie : un cas pratique | MU 15.12.2015

Avec Akpéli Nordor, doctorant à l’Institut Curie et au Massachusetts General Hospital

Compte-rendu du Meetup réalisé à La Paillasse, le 15 décembre 2015.

Trois questions à…

Comment peut-on participer à un projet d’open data en cancérologie sans background en data science, ni même en sciences biomédicales ?

AN : C’est notamment la réponse à laquelle je vais essayer de répondre à l’occasion de ce meetup. A priori, on a tendance à penser que le monde des geeks et des matheux est inaccessible mais c’est complètement faux. Il est même d’autant plus accessible lorsque l’on s’y intéresse par curiosité et par nécessité, et non par obligation. La disponibilité du savoir partout et à tout moment, grâce à internet, est aussi un sérieux atout pour s’y mettre tout de suite et maintenant. C’est la même chose pour les sciences biomédicales. Enfin, je dirais cependant que rien ne vaut des collaborations entre personnes aux profils complémentaires ; comme le suggère aussi le principe des “open data”.

Quelles sont donc les meilleures ressources pour se former aux data sciences et à la science biomédicale ?

AN : Pour se faire une idée générale sur une thématique, au-delà de la page Wikipédia, il y a d’abord d’excellents cours en ligne (massive open online courses ou MOOCs) disponibles sur Coursera, edX, Khan Academy ou YouTube. Des portails web comme PubMed permettent ensuite de consulter des millions de publications scientifiques dont bon nombre sont disponibles en ligne gratuitement. Au final, ça paraît un peu naïf, mais c’est incroyable tout ce que l’on peut apprendre via sur Google, dès lors que l’on connaît un peu les bons termes, en anglais le plus souvent. Certains commencent même à parler du “Google assay” : l’expérience à réaliser avant toutes les autres. Des informaticiens et statisticiens, avec lesquels je travaille à Boston, affirment même être devenus des experts de la biologie des cancers grâce à Google et sans avoir jamais suivi aucun cours de biologie à l’université. À nouveau, je n’insisterai cependant jamais assez sur l’importance de s’entourer de personnes aux profils complémentaires. C’est aussi ce que j’ai appris à mettre en pratique au cours de ma thèse entre Paris à Boston.

Comment l’exploitation de ces « open data » en cancérologie s’articule-t-elle avec des approches expérimentales plus classiques ?

AN : Je pense qu’en biologie, en médecine et en épidémiologie, on assiste à un vrai changement de paradigme dans lequel les travaux des “expérimentateurs” qui génèrent les données se séparent de plus en plus des travaux des “analystes” qui transforment ces données en informations pertinentes. C’est un peu ce qu’il se passe depuis déjà longtemps en physique : des physiciens génèrent de gigantesques quantités de données, au CERN par exemple, qui sont ensuite analysées par d’autres physiciens aux quatre coins du monde. Je pense que ça ne fait plus sens que chaque laboratoire fasse sa petite expérience dans son coin sans partager ses données qui, au-delà de répondre à son unique question scientifique, pourrait répondre à plein d’autres et, in fine, profiter plus rapidement aux patients.


Compte rendu

“Les plus grandes innovation du 21ème siècle seront à l’intersection de la biologie et de la technologie. C’est le commencement d’une nouvelle ère.”, Steve Jobs, qui fut l’un des premiers patients à avoir le génome de sa tumeur séquencée après l’ablation de sa tumeur).

Introduction

Présentation des travaux de recherche d’Akpéli Nordor qui est passé d’une thèse de biologie du cancer à une thèse de bioinformatique du cancer.

Aujourd’hui, il devient possible de créer une société de biotechnologies dans un biohackerspace ou même un café du fait de trois éléments clefs :

  • Internet qui impacte autant le quotidien des chercheurs que celui de quiconque ;
  • Les technologies du séquençage du génome qui progressent même plus vite que les technologies digitales ;
  • Les data, disponibles partout et à tout moment, tout comme la puissance de calcul nécessaire pour les explorer (avec le cloud computing).

Face au cancer, trois questions s’imposent rapidement :

  1. Comment prévenir ?
  2. Comment diagnostiquer suffisamment tôt ?
  3. Comment traiter ?

Travaux sur une sous-question : qu’est-ce qui fait que les cancers sont graves ?

On peut accepter une toxicité du traitement plus élevée, un certain risque, pour des cancers plus graves, c’est-à-dire quand le cancer métastase (des cellules de la tumeur initiale migrent ailleurs dans l’organisme et vont envahir d’autres tissus).

Les métastases sont la cause de 90% de la mortalité des patients, et non la tumeur cancéreuse initiale elle-même. Or aujourd’hui, on ne comprend toujours pas bien les métastases et ce qui fait qu’un patient va métastaser. Il n’existe pas de modèle suffisamment pertinent pour étudier les métastases.

Néanmoins, il existe un modèle alternatif sur lequel s’appuyer pour travailler sur les métastases : le placenta. En effet, cancer et placenta présentent des caractéristiques très similaires ; des observations ont été écrites il y a plus de 100 ans par un embryologiste écossais, John Beard, qui proposait d’assimiler les cellules cancéreuses à des “cellules placentaires irresponsables”.

Plusieurs points communs entre cancer et placenta :

  • Le placenta provoque aussi une vascularisation pour avoir un apport de sang ;
  • Le placenta peut aussi migrer et envahir un autre tissu ;
  • Le placenta a le génome du foetus et non celui de la mère : tout comme la tumeur, qui a un génome altéré, il échappe donc au système immunitaire de son organisme hôte.

En suivant ce concept, les équipes du Pr. Bellet, à l’Institut Curie, ont développé un test sanguin pour le diagnostic et le suivi de cancers placentaires et non-placentaires. Ce test est basé sur le dosage de l’hormone de grossesse, en particulier sur la portion beta. Ce même test est utilisé dans le dépistage de la trisomie 21 pendant la grossesse.

Lorsqu’Akpéli est arrivé dans ce laboratoire, ils commençaient à travailler sur un nouveau raffinement de ce concept “cancer/placenta”. L’idée était d’explorer les mécanismes qui expliqueraient la réactivation de gènes produisant des protéines placentaires au sein de tumeurs. Ces mécanismes pourraient représenter des marqueurs de la gravité des tumeurs et des cibles thérapeutiques.

En effet, toutes nos cellules ont le même génome, ou à peu près. Pourtant, elles sont loin de se ressembler en tous points, elles ne produisent pas toutes les mêmes protéines.

C’est ainsi qu’au milieu du XXe siècle Conrad Waddington, un autre embryologiste anglais, a fait l’hypothèse de mécanismes sous-jacents à la différenciation cellulaire. C’est comme les différents chemins que prendrait une bille lâchée en haut d’une colline. Il les a appelés mécanismes épigénétiques. Ces mécanismes expliquent le fait qu’avec un même génome, on obtient plus de 200 types cellulaires dans notre corps.

Ces mécanismes pourraient donc expliquer l’expression de gènes placentaires dans le cancer. Si on parvenait à identifier ces mécanismes, on aurait des signes pour le dépistage, le diagnostic, mais aussi des cibles thérapeutiques.

Recherche de pattern épigénétiques spécifiques impliqués dans l’implantation du placenta et dans le développement des tumeurs agressives.

Leçon importante des premiers mois de travaux : il n’est pas pertinent de continuer à travailler gène par gène, il est nécessaire de travailler sur tout le génome.

D’où une approche génome entier et open data. D’abord identification d’une technologie permettant de regarder les marques épigénétiques d’intérêt. En comprenant l’importance d’étudier tout le génome et en identifiant la technologie, il a réalisé qu’il y avait la plupart, si ce n’est toutes les données, dont il avait besoin. Il s’est retrouvé face à une avalanche de données avec des milliers d’échantillons et donc la possibilité de faire l’étude.

Le projet a basculé de 80% de génération de données et 20% d’analyse de données à 90% d’analyse des données.

⇒ C’est une des premières thèses de biologie des cancers presque entièrement fondée sur des données ouvertes.

Trois enseignements méthodologiques de ce projet de recherche :

  1. Importance de ce que l’on peut apprendre sur Google. C’est une première étape, un début d’apprentissage non négligeable. Quand Akpéli Nordor a commencé son travail, c’était le début des MOOCs (cours accessibles librement en ligne). Ces éléments permettent d’avoir les connaissances connaissances et le jargon de base qui permettent d’aller vers des connaissances plus pointues. Cela permet également d’identifier des leaders d’opinions, des personnes clefs et nécessaires pour approfondir ses connaissances et ses recherches.
  2. Les connaissances ne deviennent des compétences utiles pour un projet que lorsque l’on va au contact des autres, que lorsque l’on s’implique ensemble ; d’où l’importance de la culture de l’open.
  3. Au jour le jour, on devient bien plus agile lorsqu’on travaille beaucoup plus sur du data mining que sur la génération de données : on peut tester de nombreuses hypothèses et sous-hypothèses. En revanche, ce n’est pas toujours évident de savoir s’il faut persévérer sur sa voie, bifurquer ou ouvrir une parallèle. Il faut donc tâcher de garder en permanence suffisamment de recul sur ce que l’on fait parce que l’on va très vite à entamer tout un sous-projet non pertinent.

Échange avec le public

Illustration : Barbara Govin

Public : Il y a d’autres hormones produites lors de la grossesse pour induire une baisse de l’immunité chez la femme afin qu’elle accepte l’embryon. Avez-vous été en contact avec des gens qui étudient l’immunité ?

AN : Oui, le laboratoire auquel je suis rattaché à Paris est historiquement centré sur l’immunologie. Ils se sont donc souvent intéressés aux intéractions entre les hormones et le système immunitaire. Dans les années 1990, ils ont par exemple identifié une gène cancer-placenta prototypique qui appartient en fait à la famille du gène de l’insuline.

Public : Aujourd’hui, quelle est la stratégie de la part des laboratoires qui ont des données génomiques ? Pensent-ils à une monétisation de ces données, qui constituent une valeur pour eux ? Ou au contraire ont-ils une approche ouverte ? Quelle est la valeur monétaire des données pour les laboratoires ?

AN : Aujourd’hui, les laboratoires sont à la croisée de ces deux possibilités. Il y a actuellement un changement de culture qui me rend très optimiste.

Actuellement les directeurs de laboratoires doivent sortir des publications scientifiques pour faire progresser leurs carrières académiques. Historiquement, ils ont donc tendance à garder leurs données pour eux jusqu’au moment de la publication de leurs résultats (et le dépôt d’éventuels brevets). Or, lors de la publication des recherches, il est de plus en plus demandé, en plus des résultats, que les données soient rendues publiques sur un repository type Gene Expression Omnibus (GEO). Il semble y avoir une tendance générale à l’ouverture des données avec des instituts entiers qui travaillent sur des projets ouverts comme par exemple le Broad Institute à Boston ou encore Sage Bionetworks à Seattle.

Néanmoins, à l’échelle mondiale, le nombre encore faible des acteurs impliqués dans la construction de ces grandes bases de données publiques pourrait entraîner un biais ; il faut dire que ce sont souvent les mêmes instituts qui sont impliqués.

Public : Interrogation sur les métastases. Je croyais que, d’un point de vue médical, quand on voyait une cellule, même dans une tumeur débutante, on pouvait prédire l’évolution rapide (ou non) de cette cellule et ses anomalies en fonction de ses caractéristiques. Donc pourquoi dire qu’on ne peut pas prévoir les métastases ?

AN : C’est justement un problème complexe : on voit des marques de métastases mais on se rend compte que ce ne sont pas uniquement des marques de métastases et donc elles ne permettent pas de trier les patients. On n’a pas de marqueurs clairs, nets et absolus de la métastase. On ne dispose d’encore rien de spécifique. Pour palier à cela, il faut trouver des signatures avec des variables multiples.

Public : Cela veut-il dire qu’on peut avoir une tumeur qui se présente bien au départ mais qui métastase quand même ?

AN : Lorsqu’on fait la classification de base des cancers : TNM (Tumeur, Nodule, Métastase). On peut notamment voir au microscope si les cellules sont sorties du tissu initial.

Public : Quelles sont les sources de données de The Cancer Genome Atlas (TCGA)au National Cancer Institute (NCI) au Etats-Unis ?

AN : Ces données sont produites grâce aux efforts communs de grands centre hospitalo-universitaires comme le Broad Institute (qui prend pas mal le lead) à Boston, University of Southern California et Johns Hopkins University à Baltimore.

Public : Dans quelle direction peuvent aller les entreprises pharmaceutiques avec les résultats de telles recherches ? Qu’est-ce que cela va changer ?

AN : Pour rester humble, avec ma recherche telle quelle, elles ne peuvent faire grand chose aujourd’hui. Mais si je continue, j’ai bon espoir de trouver des bons mécanismes épigénomiques qui fassent le switch de réactivation des gènes placentaires dans les cancers, ce qui pourrait être possiblement intéressants pour les patients à terme. Il y a des laboratoires qui ne le “conscientisent” pas forcément mais qui travaillent déjà sur ce concept. Aujourd’hui, on assiste à un boom des traitement immunomodulateurs ou immunothérapies en cancérologie. Or, peu le savent mais une molécules phares des immunothérapies a été découverte il y a une dizaine d’année dans des lignées cellulaires de placenta.

Rejoignez la communauté Meetup, Twitter & Facebook.

Show your support

Clapping shows how much you appreciated Epidemium’s story.