Les Défis de l’analyse de nouveaux variants génétiques

Epidemium X Institut Curie, Data Day, Intervention 5

Epidemium
EPIDEMIUM

--

Intervenant

  • Pr Dominique Stoppa-Lyonnet, Pôle de médecine diagnostique et théranostique, INSTITUT CURIE

Intervention

Une des problématiques qui agite beaucoup les généticiens, et en particulier les pathologistes moléculaires, est celle de l’interprétation des variants génétiques (ou mutations génétiques).

L’ère du séquençage haut débit a mis en lumière la très grande diversité des données. Un exome, à savoir l’ensemble des parties codantes des gènes, représente environ 34 million de paires de bases (34Mb), soit 1,3% de nos 3 milliards de paires de bases qui constituent notre génome haploïde. En moyenne, pour un individu, il y a 20 000 variants ponctuels de petite taille (single nucleotide variants) et parmi eux, 500 sont rares au sens où ils sont présents chez moins d’un pour mille des personnes, et la moitié d’entre eux sont associés à une perte de fonction. Enfin, d’une génération à l’autre, il y a un variant de novo qui apparaît, c’est-à-dire chez un enfant par rapport à ses parents.

Ainsi, les grands défis de l’interprétation de ces variants, sont d’abord ceux de l’interprétation des variants perte de fonction qui sont à la recherche de leur maladie, quand il n’y a pas de maladie de phénotype associée.

D’autre part, et à l’inverse, il y a encore beaucoup de maladies génétiques, et sur les 9 000 recensées, à peu près la moitié ont leur base génétique identifiée, mais certaines maladies génétiques cherchent encore leur variant. Ainsi, la difficulté va être de faire d’une corrélation une relation de causalité. Ce passage n’est pas toujours aisé du fait précisément de la grande diversité de ces variants.

La cancérologie est touchée par cette problématique. De nombreux variants, même s’ils sont associés à une perte de fonction, ont un rôle dans la carcinogénèse (ensemble des éléments ou facteurs favorisant le développement d’un cancer, la transformation d’une cellule en une cellule cancéreuse) encore flou. Et, à l’inverse, il y a aussi, dans des gènes connus, des variants dont on ne sait pas quoi faire ; c’est le cas des gènes de prédisposition au cancer du sein qui seront mentionnés plus tard.

La question de la diversité : le cas du consortium ExAC

Le consortium ExAC a examiné 60 000 exomes d’individus non apparentés entre eux. Au total, il a été rapporté plus de 7 millions de variants différents, ce qui en fait environ un tous les huit paires de base. Ici, les variants sont les variants ponctuels, les petites délétions ou insertions.

De plus, sur ces plus de 7 millions, 54% d’entre eux sont des singletons, c’est-à-dire des variants rapportés qu’une seule fois chez un seul individu, et plus de 90% de ces singletons ne sont pas rapportés dans les bases de données. Cela souligne le travail d’interprétation posé.

Ce cas illustre parfaitement le défi actuel : plus le coût du séquençage diminue, plus les données de séquence augmentent et ainsi, avec cette diminution, les variants augmentent. Les variants annotés, c’est-à-dire les variants que l’on parvient à caractériser, augmentent mais l’écart entre les variants annotés et les variants générés ne cessent également d’augmenter.

L’exemple des prédispositions au cancer du sein, le gène BRCA1 et le gène BRCA2

Une bonne illustration de ces difficultés est l’étude des prédispositions au cancer du sein, et notamment du gène BRCA1. Toutefois, c’est aussi vrai sur un très grand nombre de maladies génétiques associées, en particulier, à des variants perte de fonction. Le corollaire de la perte de fonction est la grande variabilité allélique des mutations puisqu’il y a de nombreuses façons de casser un gène.

Ainsi, dans la base de données françaises des variants BRCA1, il y a un an, il y avait 897 variants dits pathogéniques car clairement associés à une perte de fonction rapportée dans nos bases sur plus de 6 000 familles, mais on a trouvé plus de variantes signification inconnue, au total 1 356, que de variants pathogènes. Pour le gène BRCA2, la problématique est la même, si ce n’est pire, car la séquence codante de BRCA2 est deux fois plus grande que celle de BRCA1 (10Kb vs 5Kb).

C’est un véritable problème. Le constat est fait d’un désaccord sur l’interprétation et la classification de ces variants au sein même des bases de données internationales (HGMD à Cardiff, LOVD en Hollande, UMD en France, etc.). Par exemple, si un variant est rapporté dans deux bases de données, la concordance de l’interprétation de ce variant (entre pathogène, on ne sait pas, et neutre) ne sera que de 65% ; si un variant est rapporté dans quatre bases de données, la concordance ne sera que de 45% ; si un variant est rapporté dans cinq bases de données, la concordance ne sera que de 5%. Cette problématique s’invite dans la prise en charge des patients.

En effet, en 2013 la Cour Suprême des États-Unis a retenu le fait que l’ensemble des gènes ne pouvait être brevetés, provoquant ainsi la levée du monopole de réalisation des tests génétiques. Ainsi de nombreuses sociétés commerciales, notamment aux États-Unis, se sont mis à en faire, et Myriad Genetics n’a plus le monopole des tests BRCA1 et BRCA2. Cette levée a engendré une importante discordance. Par exemple, dans le New York Times, on a pu lire des témoignages de patientes atteintes de cancer qui ne savent pas quoi faire, leurs médecins n’ayant pas retenu la même interprétation d’un variant BRCA dont elles sont porteuses. De plus, au niveau de la prise en charge préventive qui peut passer par une mammectomie prophylactique, on s’aperçoit que la moitié des femmes qui n’ont pas une histoire familiale très sévère (une histoire familiale sévère pouvant conduire à une chirurgie prophylactique, même sans altération caractérisée), mais qui sont porteuses d’un variant de signification inconnue, ont eu, toujours aux États-Unis, une mammectomie. Ce chiffre est considérable.

Cet exemple pose la question plus générale de l’interprétation de ces variants génétiques.

Les outils du généticien moléculaire et les outils du généticien clinicien

Il est important de prendre en compte la conservation phylogénétique, la conservation à travers l’évolution des espèces, le changement physico-chimique entre un acide aminé donné et un autre, la fréquence du variant dans la population des sujets atteints versus les populations témoins. Par ailleurs, les populations témoins constituent également une véritable préoccupation, en particulier en France car nous n’avons pas une école d’épidémiologie qui privilégie les témoins. De plus, il existe de nombreuses attentes quant aux tests fondés sur la méthode CRISPR-Cas9 pourvu que la protéine étudiée ne soit pas trop complexe. Le problème de BRCA1 est que c’est une protéine pléiotrope et donc le test fonctionnel correspondant n’est pas disponible.

Le clinicien est très important. La clinique, le phénotype sont essentiels. Il faut vraiment avoir des phénotypes, une description clinique du patient très précise, sinon les études perdent en puissance.

Par ailleurs, pour des maladies rares à révélation pédiatrique, quand on peut montrer qu’il s’agit d’une mutation de novo, c’est un élément en faveur du rôle du gène muté de façon de novo dans l’apparition de la maladie. L’autre élément très important, en particulier pour les maladies à transmission dominante, c’est la coségrégation entre la maladie et le fait de porter le variant. Ce sont des études qui sont difficiles à mettre en œuvre car elles exigent une très bonne coordination clinique, et de plus, quand on va travailler variant par variant, il faut aller chercher les familles. Ce sont donc des études qui ne sont pas faites au niveau d’un seul laboratoire, d’une seule structure, ni même au niveau national, mais au niveau international.

Ainsi, tout ceci va poser la problématique des bases de données.

La question bases de données

Il est urgent et nécessaire de transformer une énorme quantité de data en informations. Dans cette transformation de la data brute en informations, le devoir premier du généticien est, surtout quand il se prête à cette médecine des risques, de ne pas se tromper. À titre de comparaison, la génétique, c’est souvent le risque des drames de la jalousie, c’est-à-dire celui de la surinterprétation des données.

La constitution d’une base de données se confronte d’abord à des devoirs légaux. Ce n’est pas une entreprise triviale. On constate, avec l’arrivée de la nouvelle loi européenne (Règlement général sur la protection des données - RGDP) et sa transposition dans la loi française, des contraintes importantes. Elles ont pour vocation de protéger, de rendre confidentiel, et ce, dans l’objectif de ne pas discriminer. Il y a une responsabilité des généticiens, et plus largement des chercheurs et de l’ensemble des médecins, vis-à-vis des patients mais aussi de la population générale. Cette responsabilité se situe aussi dans ce mouvement du partage des données.

De plus, une base de données est quelque chose formidable au début. La difficulté réside dans sa pérennité. Il est facile de l’amorcer mais difficile de la maintenir. Une des difficultés est de parvenir à susciter la participation suivie des médecins et des généticiens moléculaires. Il faut continuer d’apporter des informations, d’alimenter la base. Cela pose alors aussi la problématique des financements. Et, c’est également, la question de l’articulation entre des données générées par le domaine public qui vont pouvoir être utilisées par des compagnies privées. Par exemple, pour les tests génétiques, est-ce que l’on donne toutes les données cliniques d’interprétation générées par le système public aux compagnies privées ou est-ce qu’il ne vaut mieux pas les leur proposer avec une rétribution en contre-partie ?

Nous sommes dans une situation de grande ouverture des données et cela soulève de nombreuses questions.

L’exemple de Global Alliance for Genomics and Health (GA4GH)

L’Institut Curie participe à un mouvement intéressant concernant le partage et l’ouverture des données : la Global Alliance for Genomics and Health (GA4GH). Cette dernière part du constat que les données en génomique et en génétique clinique sont souvent collectées et étudiées en silos : par maladie, par institution, par pays. La GA4GH est une ONG qui a pour vocation de faire une coalition internationale dont l’objectif est de construire un système de partage des données pour faciliter l’obtention et l’interprétation clinique des données.

Les instigateurs et acteurs de ce mouvement sont les mêmes qui ont participé au projet Génome Humain, garantissant ainsi une grande honnêteté intellectuelle. Ainsi, les institutions fondatrices sont the Broad Institute of MIT and Harvard, the Ontario Institute for Cancer Research (OICR), the Wellcome Trust Sanger Institute (WTSI). Aujourd’hui, il y a 500 organisations, à la fois publiques et privées, qui participent et financent la GA4GH, dont the University of California Santa Cruz, the University of Cambridge, the National Institutes of Health, pour ne citer qu’eux. La France, quant à elle, participe notamment avec l’Institut National du Cancer (INCa) et France Génomique.

Parmi les actions de la GA4GH, il y a trois demonstration projects essentiels :

  • The Beacon Network : “beacon” en anglais désigne la balise. L’idée est de mettre une même balise sur un même variant quelque soit la base de données dans laquelle il se trouve. L’idée est de faciliter ainsi le partage des données associées. Par conséquent, l’objectif patent est non pas d’aller vers une base de données centralisée mais vers une fédération de bases de données. Cela répond notamment à la frilosité de tous les acteurs et au besoin de reconnaissance du travail accompli. Une seule base de données internationale est une entreprise difficile à mettre en place et demande beaucoup de temps, il vaut donc mieux aller vers une fédération de base de données.
  • The MatchMaker Exchange : l’objectif est de favoriser la découverte génomique à travers l’échange, via une plateforme dédiée, de profils phénotypiques et génotypiques, et ce pour les patients atteints de maladies rares. L’idée est de favoriser l’échange des données de cas avec des profils phénotypiques et génotypiques similaires qui se trouvent dans des bases de données isolées.
  • The BRCA Challenge : un des premiers projets développés dans le cadre de GA4GH, il se voulait être la preuve de son utilité, la POC. L’objectif de ce projet est de faire progresser la compréhension de la base génétique du cancer du sein, de l’ovaire et d’autres maladies en mettant en commun des données sur les variants génétiques BRCA1 et BRCA2 ainsi que les données cliniques, et ce, à l’échelle mondiale.

Plan France Médecine Génomique 2025

Le Plan France Médecine Génomique 2025 est un projet qui répond à la demande du premier Ministre M. Valls faite en avril 2015. Il souligne la place de la génétique qui est au cœur de l’innovation diagnostique, pronostique, thérapeutique et préventive.

La lettre de mission adressée alors à Yves Lévy, PDG de l’INSERM et président d’Aviesan, pose comme essentielle la définition des conditions nécessaires à l’utilisation du séquençage du génome en pratique clinique et prospective en France, et ce, dans les dix ans. Parmi les notions importantes, il est possible de mentionner le parcours génomique du patient et l’introduction de la génomique dans le diagnostic, son établissement et la prédiction des risques. On sort du cadre de l’oncologie.

La génomique est un sujet compétitif actuel, et ce, d’un point de vue international : un programme de génomique a été lancé en 2012 en Angleterre, en 2014 aux États-Unis et en Chine.

Le rapport remis en juin 2016 pointe quatre enjeux :

  • Un enjeu de santé publique avec le diagnostic (errance diagnostique, en particulier pour les maladies rares), le pronostic qui est un élément crucial notamment pour les cancers, le traitement avec l’identification, par exemple, de nouvelles cibles thérapeutiques et de cibles thérapeutiques spécifiques au patient en tant que la génomique apporte une nouvelle nosographie (description et classification) des cancers qui ne repose plus seulement sur la localisation tumorale ;
  • Un enjeu scientifique et clinique en termes de la recherche et de traitement ;
  • Un enjeu technologique : Epidemium a un rôle à jouer dans cet enjeu, au sens où il y a une convergence des sciences de la vie et de l’information qui soulève des problématiques quant à la puissance de calcul, au stockage, au partage de ces informations ;
  • Un enjeu économique : il s’agit de développer une filière industrielle génomique avec l’idée d’avoir une certaine indépendance nationale voire de souveraineté sur la réalisation de ces tests et en aval des traitement.

Ce rapport pose également des objectifs majeurs dont l’instauration du parcours génomique de soin, et l’introduction d’une filière nationale de médecine génomique avec l’idée de valorisation industrielle, de croissance économique. Aujourd’hui, un autre des objectifs posés, c’est 235 000 génomes ou exomes par an en 2020, sachant que nos capacités en 2017 sont estimées à 20 000 exomes et 10 000 génomes.

Parmi les dispositifs définis dans le Plan, il y a :

  • des projets pilotes qui concernent des cancers, maladies rares ou communes, destinés à lever les verrous technologiques, cliniques ou réglementaires ;
  • un déploiement d’un réseau de douze plateformes de séquençage sur l’ensemble du territoire en 2020 ;
  • la problématique du dossier médical électronique du patient, standardisé et interopérable ;
  • la mise en place d’un dispositif d’évaluation et de validation des nouvelles indications ;
  • la mise en place d’une gouvernance adaptée aux enjeux du plan et la mise en place d’outils de suivi et de pilotage spécifiques ;
  • l’évolution des cadres réglementaires existants en fonction des bonnes pratiques et des normes juridiques, avec la problématique de l’anonymisation et de la possibilité tout de même de revenir vers le patient ;
  • la mise en place d’un centre national de calcul intensif, le CAD (Collecteur Analyseur de Données), qui est un point important et Epidemium peut se pencher dessus. Le CAD fait un peu peur aux généticiens moléculaires qui se demandent ce qu’il va faire, et par exemple, s’il va avoir la responsabilité de l’interprétation des données sachant que c’est un acte médical ;
  • la création d’un Centre de Référence technologique d’Innovation et de Transfert (CRefIX) ;
  • la création d’une filière de formations spécifiques au sein des universités et des grandes écoles ;
  • la définition d’un modèle économique assurant l’intégration pérenne de ce nouvel outil dans le système de soins en lien avec l’assurance maladie ;
  • la facilitation du développement d’un partenariat public privé clairement affiché.

En cette fin d’année 2017, pour l’instant, ces projets ne voient pas vraiment le jour (cancer, maladies rares, maladies communes et études populationnelles). Ce sont en quelque sorte des POCs.

Concernant l’objectif du développement de plateformes de séquençage, en décembre 2016, il y a eu un appel d’offres, avec un cahier des charges précis, pour deux plateformes sur les douze mentionnées dans le Plan. Les deux lauréats sont le projet AURAGEN (Auvergne Rhône-Alpes Génomique), et le projet SeqOIA porté par l’Assistance Publique - Hôpitaux de Paris, l’Institut Curie et l’Institut Gustave Roussy, plateforme nationale de séquençage génomique très haut débit. Ces deux plateformes n’ont pas encore assez de financements. Elles vont avoir un statut de laboratoire d’analyses médicales, et vont faire partie d’un groupement de coopération sanitaire. De façon périphérique, ce sont les laboratoires hospitaliers qui vont participer au projet pour, en amont, collecter les données patients avec un filtre sur les indications, et pour revenir ensuite, avec les résultats, vers les prescripteurs et les patients. Toutefois, la place des laboratoires dans le diagnostic proprement dit, n’est pas absolument clair.

Ainsi, le Plan France Médecine Génomique 2025 marque l’ère de la génomique en médecine et, en cela, il faut s’en réjouir car c’est une nécessité.

Organisateurs Epidemium X Institut Curie, Data Day

L’Institut Curie, acteur de référence de la lutte contre le cancer, associe un centre de recherche de renommée internationale et un ensemble hospitalier de pointe qui prend en charge tous les cancers y compris les plus rares. Fondé en 1909 par Marie Curie, l’Institut Curie rassemble plus de 3 300 chercheurs, médecins et soignants autour de ses 3 missions : soins, recherche et enseignement. Fondation privée reconnue d’utilité publique habilitée à recevoir des dons et des legs, l’Institut Curie peut, grâce au soutien de ses donateurs, accélérer les découvertes et ainsi améliorer les traitements et la qualité de vie des malades. Cette collaboration est également portée par l’initiative In’C2 qui vise à promouvoir les initiatives et méthodologies innovantes au sein de l’Institut Curie.

Epidemium est un programme de recherche scientifique, collaboratif et ouvert à tous, dédié à la compréhension du cancer grâce aux données ouvertes et aux technologies du big data. Epidemium est né en avril 2015, de la rencontre inédite entre l’entreprise pharmaceutique Roche, leader en biotechnologies, et le laboratoire communautaire La Paillasse, réseau de laboratoires interdisciplinaires offrant le cadre technique, juridique et éthique nécessaire à la mise en œuvre de projets collaboratifs et open-source. L’objectif d’Epidemium est de s’appuyer sur l’abondance des données ouvertes et la force de l’intelligence collective pour ouvrir de nouvelles voies à explorer dans la recherche contre le cancer. La force d’Epidemium réside dans la communauté qu’elle a créée, qu’elle anime et qui continue à grandir : une communauté d’individus compétents, d’experts, de partenaires et d’institutions, unis par l’envie d’agir contre le cancer et conscients des compétences qu’ils ont à offrir pour cela.

Découvrez puis participez à Epidemium : site et plateforme.

Rejoignez la communauté Meetup, Twitter & Facebook.

--

--

Epidemium
EPIDEMIUM

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science