Prédire la survie des cancers du poumon de stade précoce | MU 24.11.2015

Avec Charles Ferté, chef de clinique assistant en oncologie à l’IGR & membre du comité scientifique d’Epidemium, et Mathilde Bateson, data scientist à l’Institut Hypercube

Epidemium
Epidemium
Jan 20, 2017 · 12 min read

Trois questions à…

Pourquoi avez-vous décidé de travailler sur le cancer du poumon de stade précoce ? Quel est le traitement généralement proposé pour le traiter ?

CF&MB : Tout d’abord, il faut rappeler que le cancer du poumon est celui qui tue le plus de personnes dans le monde. De plus, le tabagisme continue d’être très présent et le nombre de décès provoqués par le cancer du poumon est encore en augmentation. Ceci est notamment vrai pour les femmes dans les pays développés et dans les pays où la prévention est faible (Afrique, Asie du sud-est, Amérique du Sud, etc.). Les cancers pris à un stade tardif sont curables alors que ceux pris à un stade précoce peuvent bénéficier d’une prise en charge curative avec un objectif de guérison. Les programmes de dépistage pourraient permette de détecter ces cancers à un stade plus précoce. Cependant, à ce jour, même si le patient a bénéficié d’un diagnostic précoce, et d’une ablation de sa tumeur, on constate qu’il a environ 30% de risque de récidiver dans les 5 ans. Un des problèmes actuels est que la stratégie thérapeutique se base uniquement sur des critères morphologiques très basiques : le stade (TNM) de la tumeur réséquée. Autrement dit plus une tumeur est grosse (T), plus elle envahit de ganglions adjacents (N) et plus il y a de métastases à distance (M), plus le risque de récidive est important et le pronostic est sombre. Lorsque le risque de récidive est important, alors les malades reçoivent une chimiothérapie et/ou une radiothérapie complémentaires.

Quelles ont été les clés de la réussite de votre méthode d’analyse pour prédire la survie des patients ?

CF&MB : Nous avons cherché à prédire la survie des patients à partir de données d’expression génique de tumeurs, récoltées par puces ADN après ablation de la tumeur. À ce jour, les études génétiques pour découvrir des biomarqueurs prédictifs du pronostic rencontrent quelques difficultés, dont la principale est la non-robustesse : les résultats sont difficilement ré-applicables sur des databases externes indépendantes. De plus, lorsque l’on a trop peu de patients, le risque de fausses découvertes pour ces études comportant un très grand nombre de variables (~30 000 gènes) est important. Pour améliorer la robustesse de notre modèle, nous avons donc réalisé un important travail de curation et d’intégration de huit bases de données publiques d’expression génique.

Quels résultats avez-vous obtenus ? Quel impact pour les patients ?

CF&MB : Nous avons construit une signature simple, robuste sur plusieurs jeux de données de patients indépendants et qui fait sens d’un point de vue biologique : elle est corrélée avec des mutations, amplifications, délétions reconnus comme importants dans le développement des cancers bronchiques. Nos résultats ont été présentés dans des congrès internationaux d’oncologie (l’AACR, l’ECC et l’ESMO où ils ont été primés) et ont permis le dépôt d’un brevet. Nous souhaitons à présent transcrire notre signature en un test utilisable en pratique par les médecins qui pourront proposer des protocoles thérapeutiques complémentaires aux patients à risque.

Un fonds de dotation philanthropique (l’Institut HyperCube), et un grand institut de recherche en oncologie (Gustave Roussy), c’est aussi un mode de collaboration innovant ! Qu’en retenez-vous ?

CF&MB : Gustave Roussy avait très envie de mener un projet de recherche sur le cancer du poumon profitant de la grande disponibilité de bases de données d’expression génique pour ce cancer… Mais les compétences de data scientists sont encore précieuses et pas assez disponibles aujourd’hui ! Il a donc fait appel à l’Institut HyperCube, fonds philanthropique dédié à la recherche sur les maladies rares et les grands problèmes de santé publique. Ce mode de collaboration est idéal : les médecins-chercheurs apportent leur connaissance profonde de la maladie étudiée et l’Institut HyperCube apporte son expertise en data science… les données, quant à elles, sont publiques ! Nous croyons beaucoup à cette rencontre de compétences diverses et de données ouvertes pour le futur… Tout à fait dans l’esprit d’Epidemium !


Compte rendu

Introduction

La moitié des individus de 18–34 ans et le tiers des adultes sont fumeurs. Or, fumer est la première cause de cancer du poumon ; réduire la consommation journalière n’est pas suffisant pour le prévenir. Le cancer du poumon est important à la fois par le nombre de nouveaux cas et par la mortalité qu’il entraîne.

  • Ganglions lymphatiques régionaux (N) ⇒ le nombre et le site des ganglions lymphatiques régionaux qui contiennent des cellules cancéreuses ;
  • Métastases à distance (M) ⇒ la propagation du cancer, ou métastases, vers une autre partie du corps.
  • Enlever la tumeur et faire une chimiothérapie adjuvante (c-à-d un traitement complémentaire pour diminuer le risque de récidive)
  • Faire une chimiothérapie seule, si le stade est très avancé.

Présentation des travaux

En partant des études existantes, ils ont remarqué que des défauts sont présents dans ces études :

  • Non-robustesse : un nombre insuffisant de patients étudiés, ce qui entraîne de fausses découvertes.
  • Complexité : développer des modèles trop compliqués, impossibles à transcrire sur un test clinique utilisable par les médecins et oncologues.

Où sont les données disponibles et quelles sont-elles ?

Il existe de nombreuses bases de données publiques mais elles sont hétérogènes et nécessitent une curation (étape de nettoyage) et une normalisation.

Étude

Sélection de six bases de données parmi plus de 20 disponibles, venant de labos différents : 3 bases de training / 3 bases de test. Cette partie représente un temps de sélection chronophage mais nécessaire. Travail préalable sur les critères d’inclusion :

  • Pas de chimiothérapie adjuvante
  • Données brutes disponibles.
  • Suppression des effets batch
  • Variables d’ajustement biologiques et autres
  • Validation sur un jeu de données externe
  • Pertinence : focus sur les stades 1 des cancers du poumon
  • Robustesse : utilisation de plusieurs datasets publics ;
  • Reproductibilité : modèle simple plutôt que sur des centaines de gènes.
  • Pour les mêmes bases de données, des signatures différentes sortaient consécutivement, qui prédisaient la même chose.

Conclusion

Le processus de sélection de variables partant de 24 000 gènes, a permis d’identifier sept gènes, qui étaient anormalement sur ou sous-exprimés chez les patients qui avaient rechutés. Pour eux, une chimiothérapie adjuvante peut être proposée afin d’améliorer leur survie.


Échange avec le public

Illustration : Barbara Govin

Public : Vous avez tenu compte que des gènes et de la survie. Est-ce que vous avez aussi tenu compte des types de chimiothérapie ? Deux patients qui n’ont pas la même chimiothérapie peuvent avoir des survies différentes et ce ne sera pas dû aux gènes.

CF&MB : C’est pour cela que nous avons choisi de curer les datasets et de ne garder que les patients qui n’ont pas eu de chimiothérapie : des patients de stade 1, à qui on a seulement enlevé leur tumeur qui était très petite, et qui n’ont pas de traitement par la suite.

Public : Une fois identifiées les personnes plus à risque, que faire avec eux ? Quelle chimiothérapie ? Cela va affecter la survie des patients, la signature aura-t-elle un sens alors ?

CF&MB : La signature donne juste un flag. On a réussi à identifier ceux qui vont récidiver et ceux qui ne vont pas récidiver.

Public : Avez-vous un moyen d’avoir une information sur la réaction immunitaire du patient et pas seulement sur l’évolution de la tumeur ? Est-il possible de capturer la dynamique de la réponse immunitaire ?

CF&MB : Qui dit dynamique dit données sériées, alors qu’ici, ce n’est que des données oneshot. Aujourd’hui, le traitement des patients est décidé sur une anticipation de l’évolution de la tumeur. Il faudrait avoir une historique dans les données et on ne l’a pas.

Public : S’il fallait définir deux ou trois dimensions supplémentaires (les radio par exemple) qui permettraient d’affiner la connaissance des risques, quelles seraient-elles ?

CF&MB : Tout ce qui est simple est souvent très robuste. Par exemple, la classification TNM marche à tous les coups.

Public : Pourquoi s’intéresser à prédire la survie du patient indépendemment du traitement ?

CF&MB : On prédit la survie des patient indépendemment du traitement uniquement pour les patients de stade 1 car aux États-Unis, il existe de très gros programmes générés par les assureurs, qui prescrivent des scanners gratuits tous les tant de temps en fonction des risques pris par les assurés (les fumeurs par exemple). Cela prend beaucoup d’ampleur Il y a donc beaucoup de patients qu’on opère au stade 1, mais après on ne sait pas quoi en faire car on sait que 30% d’entre eux vont récidiver. D’où l’intérêt de comprendre qui sont ceux qui vont récidiver, pour lesquels on pourra prescrire une chimiothérapie.

Public : Peut-on prédire la réponse au traitement à travers les gènes ?

CF&MB : On ne peut pas car aujourd’hui, les bases de données ne sont pas annotées pour la réponse au traitement. le permettent pas car les traitements actuels ne sont pas ceux d’hier. Les firmes ne livrent pas leurs données.

Public : Vous dites que les pharma gardent les données ?

CF&MB : Oui, c’est un case mix. Il faudrait pouvoir les libérer mais c’est très dur et long. À Gustave Roussy, il y a 800 000 patients dont les dossiers sont enregistrés numériquement. Il est difficile de faire des projets comme ça dessus. Mais on va y arriver.

Public : Question sur le croisement entre les trois bases et le biais que cela implique. Généralement, il y a plusieurs types de cancer au sein de grands types (poumon, etc), serait-il possible d’explorer de façon plus large non pas une signature mais deux, trois, … ?

CF&MB : Oui, on aurait pu faire plusieurs clusters mais il y a peu de patients. Nous avons fait le travail en amont et se sont assurés de l’homogénéité. Nous avons pris un sous type précis et le stade 1 où les tumeurs sont petites et donc plus susceptibles d’avoir moins d’hétérogénéité car n’en ont pas eu le temps.

Public : Vous avez choisi trois bases de données pour le training et trois pour le test. Pourquoi n’en avez-vous pas pris la moitié de l’ensemble pour le training et l’autre moitié pour le test ?

CF&MB : Nous avons fait ce choix car nous voulions avoir une cohorte encore plus neutre et indépendante.

Public : Utilisez-vous cette étude et ses résultats ?

CF&MB : Non, il faudrait que chaque patient qui ait une petite tumeur enlevée, la fasse screener.

Public : Question sur votre retour d’expérience d’un point de vue méthodologique.

CF&MB : La méthodologie prend 80% à 90% du temps avec la curation de la base de données. Il est nécessaire de voir chaque base de données dans son contexte. Il faut considérer les points communs.

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges

Epidemium

Written by

Epidemium

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science

EPIDEMIUM

EPIDEMIUM

Inclusive and community-based open science program dedicated to cancer research through data challenges