Prédire la survie des cancers du poumon de stade précoce | MU 24.11.2015

Avec Charles Ferté, chef de clinique assistant en oncologie à l’IGR & membre du comité scientifique d’Epidemium, et Mathilde Bateson, data scientist à l’Institut Hypercube

Compte-rendu du Meetup réalisé à La Paillasse, le 24 novembre 2015.

Trois questions à…

Pourquoi avez-vous décidé de travailler sur le cancer du poumon de stade précoce ? Quel est le traitement généralement proposé pour le traiter ?

CF&MB : Tout d’abord, il faut rappeler que le cancer du poumon est celui qui tue le plus de personnes dans le monde. De plus, le tabagisme continue d’être très présent et le nombre de décès provoqués par le cancer du poumon est encore en augmentation. Ceci est notamment vrai pour les femmes dans les pays développés et dans les pays où la prévention est faible (Afrique, Asie du sud-est, Amérique du Sud, etc.). Les cancers pris à un stade tardif sont curables alors que ceux pris à un stade précoce peuvent bénéficier d’une prise en charge curative avec un objectif de guérison. Les programmes de dépistage pourraient permette de détecter ces cancers à un stade plus précoce. Cependant, à ce jour, même si le patient a bénéficié d’un diagnostic précoce, et d’une ablation de sa tumeur, on constate qu’il a environ 30% de risque de récidiver dans les 5 ans. Un des problèmes actuels est que la stratégie thérapeutique se base uniquement sur des critères morphologiques très basiques : le stade (TNM) de la tumeur réséquée. Autrement dit plus une tumeur est grosse (T), plus elle envahit de ganglions adjacents (N) et plus il y a de métastases à distance (M), plus le risque de récidive est important et le pronostic est sombre. Lorsque le risque de récidive est important, alors les malades reçoivent une chimiothérapie et/ou une radiothérapie complémentaires.

Ce système prédictif est sous optimal et nous avons cherché à tirer parti des informations génétiques de bases de données publiques pour essayer d’améliorer la situation.

Quelles ont été les clés de la réussite de votre méthode d’analyse pour prédire la survie des patients ?

CF&MB : Nous avons cherché à prédire la survie des patients à partir de données d’expression génique de tumeurs, récoltées par puces ADN après ablation de la tumeur. À ce jour, les études génétiques pour découvrir des biomarqueurs prédictifs du pronostic rencontrent quelques difficultés, dont la principale est la non-robustesse : les résultats sont difficilement ré-applicables sur des databases externes indépendantes. De plus, lorsque l’on a trop peu de patients, le risque de fausses découvertes pour ces études comportant un très grand nombre de variables (~30 000 gènes) est important. Pour améliorer la robustesse de notre modèle, nous avons donc réalisé un important travail de curation et d’intégration de huit bases de données publiques d’expression génique.

Un autre point nous a paru important : éviter l’écueil d’une découverte théorique impossible à utiliser en clinique. Nous avons donc cherché à construire une signature génique (un modèle) simple, comportant peu de gènes.

Pour les autres facteurs de réussite… gardons la surprise jusqu’à mardi !

Quels résultats avez-vous obtenus ? Quel impact pour les patients ?

CF&MB : Nous avons construit une signature simple, robuste sur plusieurs jeux de données de patients indépendants et qui fait sens d’un point de vue biologique : elle est corrélée avec des mutations, amplifications, délétions reconnus comme importants dans le développement des cancers bronchiques. Nos résultats ont été présentés dans des congrès internationaux d’oncologie (l’AACR, l’ECC et l’ESMO où ils ont été primés) et ont permis le dépôt d’un brevet. Nous souhaitons à présent transcrire notre signature en un test utilisable en pratique par les médecins qui pourront proposer des protocoles thérapeutiques complémentaires aux patients à risque.

Un fonds de dotation philanthropique (l’Institut HyperCube), et un grand institut de recherche en oncologie (Gustave Roussy), c’est aussi un mode de collaboration innovant ! Qu’en retenez-vous ?

CF&MB : Gustave Roussy avait très envie de mener un projet de recherche sur le cancer du poumon profitant de la grande disponibilité de bases de données d’expression génique pour ce cancer… Mais les compétences de data scientists sont encore précieuses et pas assez disponibles aujourd’hui ! Il a donc fait appel à l’Institut HyperCube, fonds philanthropique dédié à la recherche sur les maladies rares et les grands problèmes de santé publique. Ce mode de collaboration est idéal : les médecins-chercheurs apportent leur connaissance profonde de la maladie étudiée et l’Institut HyperCube apporte son expertise en data science… les données, quant à elles, sont publiques ! Nous croyons beaucoup à cette rencontre de compétences diverses et de données ouvertes pour le futur… Tout à fait dans l’esprit d’Epidemium !


Compte rendu

Introduction

La moitié des individus de 18–34 ans et le tiers des adultes sont fumeurs. Or, fumer est la première cause de cancer du poumon ; réduire la consommation journalière n’est pas suffisant pour le prévenir. Le cancer du poumon est important à la fois par le nombre de nouveaux cas et par la mortalité qu’il entraîne.

Depuis 1946, c’est la classification TNM qui permet de prédire la survie des patients :

  • Tumeur primitive (T) ⇒ la taille et la localisation de la tumeur primitive ;
  • Ganglions lymphatiques régionaux (N) ⇒ le nombre et le site des ganglions lymphatiques régionaux qui contiennent des cellules cancéreuses ;
  • Métastases à distance (M) ⇒ la propagation du cancer, ou métastases, vers une autre partie du corps.

En pratique clinique quotidienne, les patients sont à différents stades de tumeur et les taux de survie sont médiocres pour les patients de “gros” stade. Suivant le stade, il y a plusieurs possibilités de traitement :

  • Enlever la tumeur, si le stade est précoce (faible taille, pas d’envahissement ganglionnaire)
  • Enlever la tumeur et faire une chimiothérapie adjuvante (c-à-d un traitement complémentaire pour diminuer le risque de récidive)
  • Faire une chimiothérapie seule, si le stade est très avancé.

Alors comment mieux faire ? Dans la population de tumeurs de stade précoce, chez qui on ne fait pas de chimiothérapie, il y a tout de même 30% de récidive. Il faudrait alors pouvoir identifier les patients qui ne vont pas récidiver et ceux qui vont récidiver.

Pour cela, il faut intégrer les données moléculaires. Depuis 2005 environ, on commence à accumuler des données moléculaires à haute dimension sur des portails publics. Ces portails ont suivi l’évolution des technologies.

Présentation des travaux

En partant des études existantes, ils ont remarqué que des défauts sont présents dans ces études :

  • Hétérogénéité : comparer des stades de cancer trop différents les uns des autres et être donc dans l’impossibilité de trouver des signatures simples.
  • Non-robustesse : un nombre insuffisant de patients étudiés, ce qui entraîne de fausses découvertes.
  • Complexité : développer des modèles trop compliqués, impossibles à transcrire sur un test clinique utilisable par les médecins et oncologues.

Où sont les données disponibles et quelles sont-elles ?

Il existe de nombreuses bases de données publiques mais elles sont hétérogènes et nécessitent une curation (étape de nettoyage) et une normalisation.

Il y a beaucoup “d’entrepôts” online dont ArrayExpress et GEO : les deux grands repositories (entrepôts) de données génomiques générées à partir de technologies d’hybridation (puces à ADN) d’où est délivrée la plupart des bases de données. Il y a aussi le TCGA (The Cancer Genome Atlas) qui est un programme financé par le NCI : pour chaque type tumoral, 500 cas vont être sélectionnés, étudiés et mappés ; http://cancergenome.nih.gov/ (sorte de GoogleMap des types de cancer) + Base de données DB GAP (idem que GEO données issue du séquençage) + CCLE et GDSC (larges panels de lignées cellulaires séquencés).

De plus, désormais les journaux scientifiques obligent les auteurs d’études à publier leurs bases de données lors de la soumission de l’étude. C’est une condition sine qua non. C’est positif car cela ouvre des possibilités, permet de reproduire l’étude, de voir ce que les auteurs ont fait ou pas. Néanmoins, il y a un grand défaut : aujourd’hui alors que les grands journaux comme Nature et Science commissionnent des labos externes pour refaire et vérifier les expériences, ce processus est rarement fait en bioinformatique (i.e. le scandale Anil Potti qui a entraîné beaucoup de discussions pour normaliser les études).

L’évolution dans le monde de la médecine / bioinformatique, c’est qu’on parle en langage R, qui repose sur la communauté active (Bioconductor),… Recommandation auprès des institutions. Utilisation du serveur amazon, on publie le code sur Github et plate-forme synapse (gratuite, challenges, repository / entrepôt de données actif).

Étude

Sélection de six bases de données parmi plus de 20 disponibles, venant de labos différents : 3 bases de training / 3 bases de test. Cette partie représente un temps de sélection chronophage mais nécessaire. Travail préalable sur les critères d’inclusion :

  • Nécessité d’avoir un temps de survie suffisant depuis l’entrée dans la base,
  • Pas de chimiothérapie adjuvante
  • Données brutes disponibles.

Étapes de pré-processing :

  • Normalisation
  • Suppression des effets batch
  • Variables d’ajustement biologiques et autres

Trois training sets / trois validation sets. Fusionner trois trainings set ⇒ intersection des associations les plus significatives.

Analyse :

  • Sélection d’un nombre de gènes suffisant
  • Validation sur un jeu de données externe

Comparaison de leur modèle avec les standards (pour le stade petit du cancer).

Vérification du sens biologique du modèle final.

Les bons résultats de leur étude sont liés au respect de 4 points :

  • Homogénéité : critère d’inclusion astringent pour les individus
  • Pertinence : focus sur les stades 1 des cancers du poumon
  • Robustesse : utilisation de plusieurs datasets publics ;
  • Reproductibilité : modèle simple plutôt que sur des centaines de gènes.

Malgré la sélection restrictive des bases de données, elles restent très différentes les unes des autres.

Il y a une vraie différence entre le fait de publier et le fait de rendre les données accessibles. Lorsque les données sont accessibles, elles sont utilisables par la communauté, ce qui n’est pas le cas lors d’une simple publication de résultats. Ici les données existent sous forme de modules dans R et sont très largement téléchargées et réutilisées.

Profiter de la possession de trois jeux pour penser que si un résultat apparaît, il doit ressortir dans les trois de la même manière, avec le même coefficient d’expression.

Validation des résultats sur les trois bases de test externes. Focalisation sur les adénocarcinomes de stade 1, avec un modèle final comportant sept gènes. Le modèle fonctionne individuellement sur chacune des bases.

Énormément de variables pour très peu de patients. D’où les critiques émises par la communauté médicale, autour de deux problèmes :

  • Les composants des signatures (les gènes qu’ils ont sortis de leur analyse) ne disent rien à la plupart des médecins ou des biologistes. En pratique les signature n’avaient pas de relevance biologique. Est ce que ça vaut le coup de continuer à faire des signatures si on ne voit pas vraiment l’intérêt de tout ça ?
  • Pour les mêmes bases de données, des signatures différentes sortaient consécutivement, qui prédisaient la même chose.

Puis appliquer la signature trouvée dans des bases de données cohérentes pour en déduire les valeurs prédites : score de récidive, haut risque et bas risque ⇒ en déduire les mutations associées. La plupart des mutations trouvées sont déjà connues comme étant des drivers dans le cancer du poumon, donc c’est parlant.

Conclusion

Le processus de sélection de variables partant de 24 000 gènes, a permis d’identifier sept gènes, qui étaient anormalement sur ou sous-exprimés chez les patients qui avaient rechutés. Pour eux, une chimiothérapie adjuvante peut être proposée afin d’améliorer leur survie.


Échange avec le public

Illustration : Barbara Govin

Public : Vous avez tenu compte que des gènes et de la survie. Est-ce que vous avez aussi tenu compte des types de chimiothérapie ? Deux patients qui n’ont pas la même chimiothérapie peuvent avoir des survies différentes et ce ne sera pas dû aux gènes.

CF&MB : C’est pour cela que nous avons choisi de curer les datasets et de ne garder que les patients qui n’ont pas eu de chimiothérapie : des patients de stade 1, à qui on a seulement enlevé leur tumeur qui était très petite, et qui n’ont pas de traitement par la suite.

Public : Une fois identifiées les personnes plus à risque, que faire avec eux ? Quelle chimiothérapie ? Cela va affecter la survie des patients, la signature aura-t-elle un sens alors ?

CF&MB : La signature donne juste un flag. On a réussi à identifier ceux qui vont récidiver et ceux qui ne vont pas récidiver.

Public : Avez-vous un moyen d’avoir une information sur la réaction immunitaire du patient et pas seulement sur l’évolution de la tumeur ? Est-il possible de capturer la dynamique de la réponse immunitaire ?

CF&MB : Qui dit dynamique dit données sériées, alors qu’ici, ce n’est que des données oneshot. Aujourd’hui, le traitement des patients est décidé sur une anticipation de l’évolution de la tumeur. Il faudrait avoir une historique dans les données et on ne l’a pas.

Il y a tout un buzz aujourd’hui sur les immunothérapies innovantes donc on voit beaucoup d’hypothèses sur le fait de savoir si la réponse à l’immunothérapie est fonction du fait que le patient a une réponse immunitaire majorée ou pas. Nous n’avons pas ces données sériées aujourd’hui.

Public : S’il fallait définir deux ou trois dimensions supplémentaires (les radio par exemple) qui permettraient d’affiner la connaissance des risques, quelles seraient-elles ?

CF&MB : Tout ce qui est simple est souvent très robuste. Par exemple, la classification TNM marche à tous les coups.

On utilise un facteur très important en médecine qui est le score OMS : un score de fatigue, sur une note de 1 à 5. C’est le score le plus robuste dans tous les types de cancer. Aujourd’hui, cela pourrait être remplacé par des informations d’activité données par le patient via son smartphone. On peut donc accroître l’engagement des patients grâce à des applications propres, mieux suivre les patients et les rendre actifs grâce à un service ajusté.

Public : Pourquoi s’intéresser à prédire la survie du patient indépendemment du traitement ?

CF&MB : On prédit la survie des patient indépendemment du traitement uniquement pour les patients de stade 1 car aux États-Unis, il existe de très gros programmes générés par les assureurs, qui prescrivent des scanners gratuits tous les tant de temps en fonction des risques pris par les assurés (les fumeurs par exemple). Cela prend beaucoup d’ampleur Il y a donc beaucoup de patients qu’on opère au stade 1, mais après on ne sait pas quoi en faire car on sait que 30% d’entre eux vont récidiver. D’où l’intérêt de comprendre qui sont ceux qui vont récidiver, pour lesquels on pourra prescrire une chimiothérapie.

Public : Peut-on prédire la réponse au traitement à travers les gènes ?

CF&MB : On ne peut pas car aujourd’hui, les bases de données ne sont pas annotées pour la réponse au traitement. le permettent pas car les traitements actuels ne sont pas ceux d’hier. Les firmes ne livrent pas leurs données.

Public : Vous dites que les pharma gardent les données ?

CF&MB : Oui, c’est un case mix. Il faudrait pouvoir les libérer mais c’est très dur et long. À Gustave Roussy, il y a 800 000 patients dont les dossiers sont enregistrés numériquement. Il est difficile de faire des projets comme ça dessus. Mais on va y arriver.

Public : Question sur le croisement entre les trois bases et le biais que cela implique. Généralement, il y a plusieurs types de cancer au sein de grands types (poumon, etc), serait-il possible d’explorer de façon plus large non pas une signature mais deux, trois, … ?

CF&MB : Oui, on aurait pu faire plusieurs clusters mais il y a peu de patients. Nous avons fait le travail en amont et se sont assurés de l’homogénéité. Nous avons pris un sous type précis et le stade 1 où les tumeurs sont petites et donc plus susceptibles d’avoir moins d’hétérogénéité car n’en ont pas eu le temps.

Public : Vous avez choisi trois bases de données pour le training et trois pour le test. Pourquoi n’en avez-vous pas pris la moitié de l’ensemble pour le training et l’autre moitié pour le test ?

CF&MB : Nous avons fait ce choix car nous voulions avoir une cohorte encore plus neutre et indépendante.

Public : Utilisez-vous cette étude et ses résultats ?

CF&MB : Non, il faudrait que chaque patient qui ait une petite tumeur enlevée, la fasse screener.

Public : Question sur votre retour d’expérience d’un point de vue méthodologique.

CF&MB : La méthodologie prend 80% à 90% du temps avec la curation de la base de données. Il est nécessaire de voir chaque base de données dans son contexte. Il faut considérer les points communs.

Remarque de Charles Ferté : Un des challenges actuels importants est le climat. Nous sommes dans le contexte de la COP21. Il y a beaucoup de bases de données publiques. Si on tente de lier climat et cancer, alors il est possible d’agréger ces bases de données pour faire un lien entre, par exemple, des bases de données concernant production industrielle, le climat et le cancer. Il serait possible de montrer graphiquement, via un mapping, qu’il y existe des endroits où il y a eu et a des risques de cancers plus importants.

Rejoignez la communauté Meetup, Twitter & Facebook.

Show your support

Clapping shows how much you appreciated Epidemium’s story.