SAISON 3: Autour du challenge 2 : ODE

Marc Fournier
EPIDEMIUM
Published in
6 min readSep 9, 2021

Interview de Bastien Rance et Hector Countouris

Les inspirations du challenge Environnement

Aujourd’hui, nous vous présentons Bastien Rance et Hector Countouris, créateurs du projet Géocancer porté par le Cancéropôle Ile de France depuis 2018, et à l’origine du challenge Open Data & Environnement.

Bastien RANCE est maître de conférences en informatique médicale à l’université de paris-V. Il travaille en parallèle à l’hôpital Européen Georges Pompidou dans l’unité de recherche INSERM-INRIA. Il est spécialiste de la donnée et de leur interopérabilité, il fait donc en sorte que l’on puisse travailler sur des données qui viennent de différentes sources et qui sont de différentes natures.

Hector COUNTOURIS est ingénieur au sein de la plateforme de recherche translationnelle du CARPEM (Cancer Research and Personalized Medicine) située à l’hôpital Européen Georges Pompidou et plus largement au niveau de l’équipe d’informatique médicale du Pr Anita Burgun. Depuis 2013, il travaille à la construction de la plateforme afin de la rendre opérationnelle et de mettre en place des outils et des services pour faciliter la recherche en cancérologie et en médecine personnalisée.

  • Qu’est-ce que Géocancer ?

H.C. : l’objectif de ce projet est d’adjoindre aux données de cancérologie une dimension sociale et économique grâce aux données géographiques. Pour cela, nous travaillons sur des données cliniques que l’on couple à des données géographiques de base avec les adresses des patients notées lors des hospitalisations (nous travaillons sur les 39 hôpitaux de l’Assistance Publique des Hôpitaux de Paris). Nous essayons également de coupler ces données cliniques avec différents jeux de données disponibles en open data. Les premiers jeux de données qui nous ont vraiment intéressé sont ceux de l’INSEE (Institut national de la statistique et des études économiques). Ces jeux de données nous donnent le moyen de travailler à une échelle géographique communale voire infra communale ce qui nous permet d’être beaucoup plus précis en termes d’incidence éventuellement de certains événements observés en lien avec des pathologies. De même, nous pouvons avoir des données socio-économiques à partir de rapports de l’INSEE qui sont déjà géolocalisés (catégories socio-professionnelles, âges, employabilité…).

B.R. : nous savons qu’il y a des liens entre des facteurs socio-économiques et des évènements de santé. Par exemple, nous avons mené une étude sur le Covid sur le taux d’hospitalisation en fonction d’un certain nombre de caractéristiques socio-économiques qui montrent une association évidente entre ces 2 critères. En utilisant les résultats de cette étude, nous aurions pu faire des tests de détection de la Covid-19 dans certaines zones préférentielles plutôt que dans la population générale. Et c’est ce qu’on espère trouver pour le cancer.

H.C. : une autre application très simple que l’on a commencé à étudier, c’est de savoir si dans des zones défavorisées en fonction des périodes de temps (car les données ont une dimension temporelle), il y aurait plus ou moins de consultations dans certaines spécialités médicales ou encore est-ce que l’on observe des pics d’affluence en fonction de certains éléments de pollution…Ces résultats peuvent avoir un impact sur les politiques de décisions de prise en charge des patients ou de prévention.

  • Quelles sont les difficultés rencontrées au cours de ce projet ?

B.R. : nous avons certaines données publiques précises, par les données socio-économiques de l’INSEE, mais dès que l’on s’éloigne de ces données très particulières, nous n’avons pas toujours une granularité de la donnée suffisante pour pouvoir travailler. On trouve des données présentes au niveau national mais nous travaillons à l’échelle communale voire infra-communale. De même, il y a un grand flou sur le type de données en open source avec une difficulté à savoir si ce sont bien des données de santé ou des données impactant la santé.

H.C. : j’ajouterais qu’il est difficile de maintenir l’open data dans le temps. Les données sont de qualité mais on s’aperçoit que finalement un jeu très bon n’est pas renouvelé l’année d’après. Il y a un problème de suivi de la donnée dans le temps et parfois l’exploitation peut être plus ou moins difficile avec des données manquantes. Le travail d’un géographe n’est pas le même que celui d’un clinicien, donc forcément lorsque l’on voudra interpoler les deux, il y aura peut-être des champs qui seront manquant d’un côté ou de l’autre..

Il y a aussi un gros travail sur la qualité des données, notamment la dimension temporelle des données “adresse des patients” provenant de l’hôpital dont nous n’avons pas le suivi. Les patients peuvent déménager (une personne dans sa vie déménage entre une et huit fois), habiter à l’hôtel, être sans domicile… Donc il est difficile de conclure sur un lien entre un événement de santé et un lieu géographique si nous ne sommes pas certains que la personne habitait à l’endroit indiqué.

Nous avons également remarqué que la donnée géographique n’est pas forcément exploitable car mal retranscrite notamment si le patient arrive aux urgences et n’a pas la capacité de transmettre les informations d’adresse.

De même, il est très difficile d’avoir accès à la dimension spatiale et temporelle d’un événement de santé. Un des projets en cours est de voir s’il y a une augmentation des consultations des personnes identifiées avec des problèmes pulmonaires lors de pics de pollution. C’est une information qui aujourd’hui est assez difficile à produire même si la question est simple. En aval de ces projets, cela pourrait avoir un bénéfice en termes d’impact organisationnel au niveau de l’hôpital. Savoir qu’il y aura des patients qui développent des symptômes pulmonaires aigus à la suite d’un pic de pollution peut permettre au service hospitalier de s’organiser en amont pour recevoir les patients.

  • Qu’est-ce qui vous a amené à collaborer avec Epidemium ?

B.R. : il y avait déjà des équipes dans les challenge précédents d’Epidemium qui avait travaillé sur les données publiques et qui avait montré des choses très intéressantes des constructions de modèles prédictifs. Il s’est posé cette question : peut-on faire un meilleur usage des données publiques ? Peut-on les croiser avec les données dont nous disposons à l’hôpital pour améliorer la prévention d’évènements de santé et la prise en charge des patients ? L’objectif est de pouvoir bénéficier de l’expertise des challengers d’Epidemium sur cette question et essayer de voir si nous pouvons mieux chercher dans ces données open source que ce l’on fait actuellement.

  • Qu’attendez-vous des challengers d’Epidemium ?

B.R : il y a une grande quantité de données disponibles en open data, mais qui sont finalement assez compliquées à fouiller. C’est très difficile pour nous d’identifier les données qui sont pertinentes hors du petit pool de données que l’on utilise toujours. Nous souhaiterions disposer d’outils qui nous permettent de filtrer ces données de façon efficace et de les parcourir très vite pour identifier la source qui est utile. Par exemple, des filtres géographiques/de granularité car il y en a peu disponibles sur les plateformes d’open data, l’ajout de tag automatique pour différencier les natures de données (environnementales, professionnelles, santé…), voir le volume de données disponibles schématisé par des point sur une carte…Il y a beaucoup de choses qui peuvent être améliorées sur les sites d’open data et nous espérons que les challengers pourront apporter un nouveau regard.

H.C. : je pense que les challengers d’Epidemium peuvent vraiment nous amener plus loin dans ce que l’on peut traiter comme données. Aujourd’hui nous avons un scope étroit en termes de data. Sur le volet mise à disposition des données, il peut y avoir plusieurs jeux de données qui peuvent être soit consolidés, soit pérennisés et pourquoi pas être force de proposition sur certains jeux de données. Si des challengers ont des données médicales, nous avons un jeu de données sur un polluant ou sur des événements socio-économiques que l’on peut étudier. On peut imaginer également que si on arrive à avancer sur une thématique, il puisse y avoir un regard de la communauté sur la pertinence de l’utilisation des jeux de données. Car on peut avoir un regard critique sur ce que l’on fait et ce sera toujours le bienvenu. La communauté peut aussi avoir un rôle après l’utilisation des data.

Les challengers peuvent aussi entrer en communication avec les différents intervenants qui publient les open data et savoir peut-être pourquoi ils ne publient pas plus régulièrement, qu’est ce qui peut être fait pour que cela soit pérennisé, pourquoi il manque des informations qui sont disponibles dans d’autres régions….

On ne peut pas agir sur les données médicales, en revanche les challengers peuvent aider sur la data combinée qui peut enrichir les jeux de données médicales et accélérer la recherche. Les conclusions seront pour le patient, les médecins et je pense qu’il y a un vrai bénéfice à ce que les personnes qui ont mis leurs données en open data voient leurs données utilisées.

Une interview réalisée par Aude Rochereau

--

--