NVIDIA : IA et Deep Learning en santé

Epidemium X Institut Curie, Data Day, Intervention 4

Epidemium
EPIDEMIUM

--

Intervenant

  • Guillaume BARAT, EMEA Business Development, NVIDIA

Intervention

NVIDIA et la recherche

NVIDIA est avant tout connue dans le milieu du jeu vidéo caractérisé par du graphique très performant et toujours plus demandeur, en tant que les jeunes générations exigent des jeux de plus en plus réalistes et poussent ainsi le développement d’architectures ultra-performantes capables de faire, aujourd’hui, de la simulation physique ou de fluide au sein des jeux. À titre d’exemple, lorsque des bâtiments, dans un jeux, sont détruits, ils vont s’effondrer de façon réaliste.

Il y a maintenant dix ans, certains chercheurs ont utilisé ces architectures dites graphiques pour faire de la simulation numérique. Ces capacités ont donc été sortie du domaine du graphique pour servir un autre objectif. Par là, au fur et à mesure, le calcul scientifique sur carte graphique est né, les cartes graphiques étant utilisées pour faire tout sauf du graphique.

Plus récemment, avec l’avènement du GPU Computing, l’IA et les renouveaux algorithmiques de type deep learning révolutionnent une grande partie des industries aujourd’hui. NVIDIA est devenue un composant essentiel de cette révolution et a décidé d’adresser les questions d’IA et de deep learning en se focalisant principalement sur deux domaines très prometteur : la voiture autonome et le médical.

NVIDIA et le domaine médical

NVIDIA n’est pas nouvelle dans le milieu médical. Elle a commencé à s’y intéresser il y a plus de 10 ans avec des améliorations graphiques pour tout ce qui concerne la radiologie, les ultrasons, etc. Il y a eu des avancées fondamentales dans la détection et la classification des pathologies notamment liées au deep learning au travers de certaines cellules de recherche.

Cet avènement du GPU Computing, mentionné plus haut, se traduit par une augmentation du nombre de publications intégrant le deep learning dans le domaine médical. Elles soulignent une révolution présente dans le domaine médical en termes de précision, de rapidité d’exécution, etc.

De plus, il y a un fort développement de startups dans ce marché qui apportent des technologies complètement nouvelles, avec la possibilité notamment pour les gros acteurs du secteur (Philips Medical, GE Healthcare) d’adopter plus facilement ces nouvelles pratiques en rachetant ces compagnies plus petites ou en travaillant avec elles.

Pourquoi le deep learning aujourd’hui ?

Aujourd’hui, le deep learning est un terme qui circule énormément alors même que ces technologies existent depuis plus de 40 ans. Cela est dû à la présence de trois composantes :

  • la présence massive de la donnée qu’elle soit ou non structurée, générant de nombreux challenges ;
  • le renouveau de certains algorithmes de deep learning ;
  • la puissance de calcul désormais disponible au travers du GPU Computing, des cartes dites graphiques.

Les technologies traditionnelles, malgré l’abondance de données aujourd’hui, peinent à atteindre les derniers pourcentage de précision qui vont permettre de rendre ces technologies de détection ou de compréhension de la donnée suffisamment pertinentes pour être utilisées dans l’industrie et dans des secteurs critiques. Dans le domaine médical, par exemple, il est impératif de détecter à raison un cancer et de ne pas effrayer inutilement un patient.

Or, les technologies de deep learning, à partir du moment où suffisamment de données sont à disposition, même s’il est nécessaire qu’elles soient un peu plus qualifiées et pas seulement brutes, vont permettre des avancées majeures quant à ces pourcentages manquants et pourtant cruciaux pour le développement d’une solution précise et pérenne.

Comment définir simplement le deep learning ?

Les méthodes traditionnelles de catégorisation reposent sur l’intelligence humaine. L’humain qualifie la façon dont l’ordinateur doit qualifier un cancer, définir que telle ou telle cellule est cancéreuse. Ainsi, c’est à la fois un informaticien et un médecin qui doivent créer l’intelligence algorithmique pour être capable d’avoir un outil qui va favoriser la pratique du médecin en lui conseillant, par exemple, de vérifier telle ou telle cellule pressentie comme cancéreuse. Cette manière de faire n’est alors pas scalable ou pertinente dans le milieu de la production, dans le milieu industriel car dès qu’un autre type de cancer ou de cellule sera observé, il faudra tout réinventer, nécessitant alors potentiellement plusieurs années de recherche et développement pour pouvoir caractériser efficacement.

Le deep learning, quant à lui, a l’avantage de demander nettement moins d’effort. Les efforts nécessaires sont ceux en amont dont l’objectif est d’avoir des bases de données qui permettent de dire si telle ou telle cellule est ou non cancéreuse, c’est-à-dire des bases de données qualifiées, structurées, nettoyées. À partir de là, c’est l’intelligence artificielle qui va faire d’elle-même sa catégorisation, décider comment reconnaître une cellule cancéreuse. Ainsi, le deep learning permet de faire des tâches relativement simples mais requiert de partir des données propres. Dans le milieu du médical, on va s’appuyer sur de données principales : l’image et le texte.

Slide de la présentation NVIDIA utilisée pendant l’intervention lors du Data Day

En imagerie, par exemple, il s’agit notamment de détecter si une cellule cancéreuse est présente dans l’image, de classifier entre cellule saine et cellule maligne, de segmenter, de délimiter les endroits concernés par la maladie, de faire des prédiction sur l’efficacité de certains médicaments ou traitements, de faire des recommandations thérapiques basées sur un grand nombre d’historiques ou des antécédents du patient.

Concernant le langage, le texte, il s’agit de comprendre de mieux en mieux. On parle de NLP pour Natural Language Processing mais aussi de NLU pour Natural Language Understanding, compréhension du langage. Il s’agit donc d’aller un peu plus loin, c’est-à-dire pas uniquement de comprendre des mots clefs mais toute l’articulation de la phrase et donc notamment des négations, des enchaînements de raisonnements plus compliqués, et ce, afin de répondre à des concepts plus avancés et des questions plus ouvertes. Il s’agit d’aller plus loin tout en parlant de manière naturelle.

Les secteurs concernés sont tous ceux qui ont trait à l’imagerie, la radiologie, le traitement des pathologies, la dermatologie et l’ophtalmologie, tout ce qui est lié au traitement des données patients.

Slide de la présentation NVIDIA utilisée pendant l’intervention lors du Data Day

Difficultés rencontrées

Il est tout d’abord complexe d’avoir de la donnée structurée, labellisée, que ce soit dans l’image ou dans le texte. Cela est pourtant nécessaire afin que l’algorithme puisse apprendre à partir d’elle. Par exemple, une image doit indiquer la présence ou non d’un cancer, pour que l’algorithme puisse apprendre. En ce sens, le National Institute of Health Clinical Center a publié tout un ensemble de radios des poumons qui ont été labellisées, et toutes ces données labellisées l’ont été de manière automatique par des technologies deep learning. Ainsi, à partir d’un petit jeu de données labellisées à la main, ils ont réussi à créer un grand jeu de données labellisées automatiquement.

Slide de la présentation NVIDIA utilisée pendant l’intervention lors du Data Day

Les avancées possibles

Il est possible d’améliorer la qualité de détection des cellules cancéreuses, par exemple grâce au deep learning, sans remplacer le médecin ; il n’en est d’ailleurs pas question. Il s’agit de perfectionner la détection des cellules de cancer en combinant à la fois la détection des cellules cancéreuses par l’algorithme et la détection faite par le médecin, en mêlant experts pathologiques et traitement du deep learning.

Slide de la présentation NVIDIA utilisée pendant l’intervention lors du Data Day

On va favoriser, à travers le traitement de données médicales plutôt textuelles, un assemblage d’images, la prédiction de la pertinence d’un traitement ou d’une maladie jusqu’à un an avant qu’elle arrive, permettant potentiellement son traitement chez certain patient.

Slide de la présentation NVIDIA utilisée pendant l’intervention lors du Data Day

Ainsi, il s’agit de pouvoir avoir facilement un maximum d’informations pertinentes afin d’être en mesure de les présenter à un médecin et de l’aider à prendre la bonne décision rapidement.

Slide de la présentation NVIDIA utilisée pendant l’intervention lors du Data Day

Cela ne se limite pas à l’imagerie, à la détection et à la compréhension. Les technologies algorithmiques de deep learning vont aussi permettre la création de nouvelles molécules de médicaments, créées plus facilement et rapidement, favorisant un time to market plus court. Cela ne concerne donc pas uniquement la recherche mais aussi l’industrie, la clinique.

Solutions proposées par NVIDIA

NVIDIA n’est pas experte médicale mais elle va fournir l’ensemble des briques hardwares, informatiques nécessaires au traitement de l’ensemble de ces données d’un point de vue matériel pur (des serveurs avec des GPU, des cartes graphiques situées dans un data center), un ensemble de briques logicielles pour optimiser les serveurs, pouvoir fonctionner en parallèle avec un grand nombre de GPUs et pour masquer la complexité des algorithmes de deep learning afin que l’utilisateur puisse avoir des interfaces beaucoup plus simples. Enfin, NVIDIA propose également de la formation aux technologies deep learning, via le Deep Learning Institute, et ce, de manière générale ou appliquée au domaine du médical.

Échange avec le public

Public : Autant le niveau de créativité apporté par ces technologies dans la découverte de nouveaux médicaments et de nouvelles approches thérapeutiques est clair, mais dans les approche diagnostiques c’est plus flou. Est-ce qu’il s’agit plus d’un renforcement de l’infaillibilité du diagnostic fait par l’homme (radiologue, pathologiste, …) ?

Par ces technologies et solutions, il s’agit avant tout de faciliter la vie du médecin, de la personne qui va analyser les images en lui pointant du doigt les cellules ou les parties de l’image qui sont problématiques et qu’il faut donc regarder. D’autant plus qu’il peut être amené à en examiner un très grand nombre en un temps assez court. Des travaux de recherche ont pu montrer que ces technologies permettaient de renforcer la pertinence du diagnostic. De plus, elles permettent aussi d’aller un peu plus loin dans l’analyse des antécédents, et ce, de manière assez large : regarder un très grand nombre de patients ayant des similitudes avec le cas étudié afin d’identifier le traitement le plus adapté, voir l’historique complet du patient, de sa maladie, etc. Enfin, elles peuvent tout à fait faciliter et renforcer le diagnostic à distance, et donc répondre à la question des déserts médicaux.

Organisateurs Epidemium X Institut Curie, Data Day

L’Institut Curie, acteur de référence de la lutte contre le cancer, associe un centre de recherche de renommée internationale et un ensemble hospitalier de pointe qui prend en charge tous les cancers y compris les plus rares. Fondé en 1909 par Marie Curie, l’Institut Curie rassemble plus de 3 300 chercheurs, médecins et soignants autour de ses 3 missions : soins, recherche et enseignement. Fondation privée reconnue d’utilité publique habilitée à recevoir des dons et des legs, l’Institut Curie peut, grâce au soutien de ses donateurs, accélérer les découvertes et ainsi améliorer les traitements et la qualité de vie des malades. Cette collaboration est également portée par l’initiative In’C2 qui vise à promouvoir les initiatives et méthodologies innovantes au sein de l’Institut Curie.

Epidemium est un programme de recherche scientifique, collaboratif et ouvert à tous, dédié à la compréhension du cancer grâce aux données ouvertes et aux technologies du big data. Epidemium est né en avril 2015, de la rencontre inédite entre l’entreprise pharmaceutique Roche, leader en biotechnologies, et le laboratoire communautaire La Paillasse, réseau de laboratoires interdisciplinaires offrant le cadre technique, juridique et éthique nécessaire à la mise en œuvre de projets collaboratifs et open-source. L’objectif d’Epidemium est de s’appuyer sur l’abondance des données ouvertes et la force de l’intelligence collective pour ouvrir de nouvelles voies à explorer dans la recherche contre le cancer. La force d’Epidemium réside dans la communauté qu’elle a créée, qu’elle anime et qui continue à grandir : une communauté d’individus compétents, d’experts, de partenaires et d’institutions, unis par l’envie d’agir contre le cancer et conscients des compétences qu’ils ont à offrir pour cela.

Découvrez puis participez à Epidemium : site et plateforme.

Rejoignez la communauté Meetup, Twitter & Facebook.

--

--

Epidemium
EPIDEMIUM

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science