Les Modèles d’épidémies sur base de données mobiles | MU 12.11.2015

Avec Nicolas de Cordes, vice-président marketing anticipation du Groupe Orange, et Stefania Rubrichi, biomedical engineer & data scientist

Epidemium
EPIDEMIUM
Published in
10 min readJan 20, 2017

--

Compte-rendu du Meetup réalisé à La Paillasse, le 12 novembre 2015.

Trois questions à…

What are the potential uses of Mobile meta data for development?

NC&SR : Orange will present a sample of results of the 2 challenges they ran in Ivory coast in 2012–13 and Senegal in 2014–15. Examples taken from national statistics, transportation, urban planning, food security will be illustrated demonstrating the very powerful new insights this material provide. It will also present some key challenges, in ethics and privacy, facing organizations willing to share data for research.

How can mobile phone data be used for epidemiology?

NC&SR : It is widely acknowledged that social and behavioral factors are important determinants of health and disease. Particularly, mobility and social structures play a central role in epidemics spread. For many infectious disease, transmission takes place when people are co-located, thus spreading is driven by individuals’ movement.

Orange will show how mobile phone data, by means of big data analytics, can provide with realistic pattern of human mobility, and how these data will support the study of the distribution of epidemics and its application to the identification of the most appropriate strategies toward the spread prevention.

What are the difficulties using these data ?

NC&SR : One of the main difficulties relates to the real-time availability and access to both mobility and disease information, in order to deal with behavioral change in the population. Behavioral changes, in fact, may produce a high impact on disease containment and mitigation. Orange will present some results form the analysis of the importance and relevant effects of behavioral changes and will propose some possible future directions.

Compte rendu

Présentation des travaux sur les usages des données des réseaux mobiles qui sont extraites, packagées et traitées pour tenter de parvenir à des conclusions vertueuses. C’est une opération complexe et difficile. Volonté de mettre en avant les réalisations en cette matière et l’intérêt d’une telle action.

Introduction

Il y a de nombreuses questions sur les données et leurs liens avec les objectifs de développement. Il est nécessaire de mesurer ces objectifs, donc de se demander comment les mesurer. Il est possible d’utiliser les statistiques nationales ou bien de nouvelles méthodes, des moyens plus rapides. Il y a tellement d’éléments à mesurer que les sondages ou les études de marché, par exemple, ne sont plus suffisants. Le big data devient alors un des moyens pour mesurer les objectifs de développement.

Orange a mené deux initiatives au Sénégal et en Côte d’Ivoire. Des données du réseau ont été extraites : lorsqu’un individu émet un appel, l’antenne capte des signaux à l’endroit d’émission et à l’endroit de la réception. Il y a donc deux signaux émis : un au moment de l’appel, l’autre lorsque l’appel est pris. Néanmoins, la précision de ces données est variable car liée à l’antenne (une antenne peut couvrir quelques quartiers dans une ville ou des dizaines voire centaines de kilomètres carrés). Bien entendu, le compte-rendu d’appel contient des données personnelles, comme les numéros de la carte sim, d’appel, du correspondant, etc. Il est donc nécessaire d’éliminer tous ces numéros, de packager et de préparer les données afin d’atteindre un niveau de d’anonymisation qui ne permet plus de retrouver quelqu’un à partir d’elle, ou du moins pas à des coûts et des efforts réalistes. Ces données, une fois traitées, permettent la recherche.

Exemples du traitement des données et d’application

  • Exemple 1 : recherche sur l’indice de pauvreté.

Il existe une carte établie à partir de statistiques nationales, d’enquêtes sur le terrain sur une quinzaine de régions. Une chercheuse a regroupé les antennes sur ces régions puis a analysé la corrélation entre la pauvreté et la manière dont les gens passent leurs appels. Cela permet notamment une vision plus fine de la pauvreté. Les plus riches sont ceux qui appellent plus, le font plus longtemps, appellent une plus grande variété de personnes, etc.

  • Exemple 2 : modélisation des épidémies (malaria, méningite, sida, tuberculose, etc.).

Il existe de nombreux projets qui tentent d’améliorer les modèles d’épidémie. Des mesures terrain sont réalisées par les médecins. Les données de mobilité permettent de voir les déplacements de population, d’où la possibilité de voir où la maladie se répandra plus rapidement.

  • Exemple 3

Réalisation d’une carte des zones ne permettant pas une intervention médicale rapide, qui sont difficilement accessibles. Ces zones géographiques peuvent notamment être prises en compte dans la politique de déploiement des hôpitaux des États car elles mettent en avant un besoin.

  • Exemple 4 : analyse d’infrastructures.

En connaissant les déplacements de population, il est possible d’optimiser le réseau urbain qui est à développer dans un pays, ou de mesurer l’analyse d’impact de l’ouverture d’une autoroute en comparant, par exemple, six mois avec l’autoroute et les six mois qui précèdent son ouverture.

  • Exemple 5 : les enjeux de l’électrification de l’Afrique.

Comment mettre en place au mieux l’électricité ? Où sont les zones prioritaires ? Etc. Une équipe a pu obtenir les données de la Senelec (Société National d’Éléctricité du Sénégal), en plus des données de mobilité fournies par Orange. Les données sont fortement corrélées et celles qu’on observe sur le réseau mobile, là où il n’y a pas encore de réseau électrique, permettent de réduire et d’optimiser le développement, de voir où il y en a besoin et donc, in fine, de limiter les coûts.

Problèmes rencontrés

Ouvrir les données pour une entreprise privée, c’est difficile : il y a des données sensibles, les données sont potentiellement sources de richesse, etc. De plus, l’exploitation des données soulève de nombreuses questions éthiques, de gouvernance, de sécurité, etc. Néanmoins, il est nécessaire de trouver une solution car les bénéfices liés à cette ouverture prudente peuvent être importants. Comment solutionner ces problèmes ? Comment packager les données ? Comment créer un accès sécurisé aux données ? Comment fournir ces données aux clients mêmes qui les génèrent ? Que peut-on inventer pour que la société puisse bénéficier de ces données, de ce nouvel outil d’observation de la société ?

Il faut expérimenter, avec prudence pour explorer les pistes, et dans ce cadre Orange contribue à un prochain challenge lancé par les Nations Unies pendant la COP21, Data for Climate Action.

Échange avec le public

Illustration : Barbara Govin

Public : Avez-vous confronté votre modèle à certaines épidémies en Afrique ?

NC&SR : Nous sommes en cours, mais il existe des études qui ont validé ce type de modèle. La mise en place de ces études pose de nombreuses questions. Par exemple, il est difficile d’isoler des populations à risque en cas de crise, c’est une décision lourde à prendre par les autorités nationales. Donc il est indispensable, au préalable d’être sûr que ces modèles sont valides. Quand ils seront stabilisés, il faudra discuter des processus de gouvernance, d’éthique car leur application soulève des risques.

Public : Ces techniques pourraient-elles être appliquées à d’autres maladies, qui ne seraient pas des épidémies, comme le cancer ?

NC&SR : Ces types de modèles sont utilisés initialement dans le cas des épidémies où la transmission des maladies est due au contact. Par conséquent, ils ne sont pas forcément applicables au cancer. C’est une piste à creuser, par exemple l’analyse de mobilité dans des zones chargées de pollution (fumées, etc.) pourrait être un indicateur intéressant. Il faudrait pour ce faire avoir des observations sur de longues périodes de temps, ce qui à ce stade est très difficile.

Public : Comment penser leur application ? Comment penser cette mesure des épidémies ?

NC&SR : Les individus ont souvent peur d’être tracés par leur smartphone. Néanmoins ils pensent aussi que ces données pourraient être bénéfiques avec par exemples la mesure de l’activité physique. Les données peuvent traduire un comportement culturel, potentiellement lié à une dimension ethnique, ce qui peut en faire une information sensible. De ce fait et pour d’autres raisons, traiter les data issues de la téléphonie mobile à des niveaux individuels, ou de tout petits groupes, demande le consentement des consommateurs et une attention particulière.

Public : Dans ces pays, Orange comme opérateur ne représente qu’un certain pourcentage de la population et non sa globalité. Par conséquent, n’y a-t-il pas un biais dans ces études ? L’État a-t-il tenté de rassembler des données d’autres opérateurs ?

NC&SR : Dans beaucoup de nos pays, Orange est soit leader soit second ; la couverture n’est pas totale mais assez complète en géographie et en couverture de population, pour l’analyse de données. Comme montré précédemment il est possible, par exemple par les types d’appel, de voir les classes de la population : on constate la pauvreté car les appels sont très courts, payés à la seconde ou car un même téléphone est partagé par plusieurs personnes. Ces informations concernent un région, et avec notre positionnement grand public, et les tarifs à bas coûts que nous offrons en Afrique, nous avons une part de marché qui représente raisonnablement bien la population qui peut s’offrir des services de téléphonie…mais pas les plus pauvres malheureusement. De plus, pour compenser l’absence de couverture totale, il est possible dans certains pays de corriger l’échantillon et d’inférer. Possible de simuler la globalité du réseau. Enfin, il est très peu probable que tous les opérateurs partageront en une database toutes leurs données car cela représenterait un risque trop important, autant pour les clients que pour des raisons commerciales.

Public : Comment faire si un individu malade se déplace sans appeler et donc sans émettre de données ?

NC&SR : Quand on n’appelle pas, il y a d’autres méthodes que la capture de CRA (Compte rendu d’appel) quand on bouge, les antennes capturent suivent la position des téléphonne pour pouvoir faire aboutir les appels s’il y en a un qui arrive pour un correspondant. La collaboration entre les antennes pour s’informer des position des téléphones génèrent une très grande quantité de données (l’antenne qui capte le signal le plus proche prenant le relais sur la précédente) trop importante que pour être conservée. Des technologies existent pour exploiter ces signaux, et sont utilisée dans un produit commercial d’Orange (Flux Vision) avec une anonymisation et agrégation d’échantillons en temps réel.

Public : Comment met-on en application ce type d’études ?

NC&SR : Lorsque l’on réalise ce type d’études, cela génère beaucoup d’attente, d’espérance. Les gouvernements sont intéressés mais ils n’ont souvent pas les moyens de les transformer directement en réalité. Il est donc difficile de pérenniser ces initiatives. Nous devons réfléchir à comment passer de ces recherches à quelque chose à industrialiser. À ce stade de l’industrie, il y a un manque d’argent, de compétences, d’habitude de travail, etc. De plus, le temps pose problème car ces études sont longues à mettre en place et leurs résultats demandent du temps. Il y a deux étapes : voir si un projet est faisable et l’implémenter.

Public : Est-il difficile de convaincre les gouvernements africains ? Qu’en est-il de la politique de l’open data en Afrique ?

NC&SR : Il est nécessaire de trouver et de parler aux bonnes personnes mais ce n’est parfois pas suffisant. La question du budget se pose toujours.

Public : Comment collecter les données ?

NC&SR : Il y a un mécanisme permanent pour récolter ces informations. La fonction première des données téléphoniques est de contrôler, de calculer combien de temps et où les personnes téléphonent afin de faire la facture. La loi du pays parfois demande de garder les numéros. Si la loi ne le contraint pas alors ces derniers sont supprimés. Parfois la loi d’un pays demande de supprimer complètement ou de les anonymiser.

Public : Quel est l’état de l’open data en Afrique ?

NC&SR : Une bonne source d’information est l’initiative Open Government Partnership. Il y a des gouvernements progressistes comme au Kenya. Il est bien entendu très rare de voir de la private open data ; c’est souvent de l’open gouvernement data our de l’Open Academic.

Remarque du public : De nombreux problèmes sont posés par l’exploitation des data. Le cancer est différent des épidémies ; c’est une maladie très complexe. Il y a de nombreuses informations le concernant mais très peu de réponses. De plus, le cancer évolue dans un temps très long : quand les gouvernements ont pris des mesures anti-tabac, la baisse du cancer des poumons a mis des dizaines d’années. Comment modéliser les maladies au temps long ? Même si l’on peut mesurer des données quant à l’activité physique, que faire et comment mesurer le fait que, par exemple, la personne ayant fait du sport boit beaucoup après ? De plus, ils se posent beaucoup de questions éthiques, politiques, etc. Enfin, il y a également, par exemple, de nombreuses définition du cancer.

Public : Orange dispose des discussions des individus. Serait-il possible, dans l’avenir, d’analyser des mots clefs, de faire une analyse sémantique avec le niveau d’anonymisation nécessaire et donc d’enrichir les données ?

NC&SR : Non, c’est tout à fait inenvisageable chez Orange. Mais j’ai entendu que d’autre opérateurs le faisaient. effectivement, ce type d’information serait utile pour étudier la dynamique d’une maladie. Néanmoins, chez Orange, la culture de la compagnie empêcherait de travailler sur les sms. Il serait peut-être possible de penser une formule : sms gratuit en échange de la possibilité de les étudier ? Si on veut étudier les sms, il est nécessaire d’être très clair vis-à-vis des utilisateurs et de demander leur consentement explicite. Néanmoins, en Italie, Stefania Rubrichi a pu travailler sur des sms anonymisés.

Il existe par ailleurs des études analyses de tweets.

Il y a aujourd’hui des outils et de la volonté de trouver des solutions pour adresser les questions complexes de notre société et notre planète.

Rejoignez la communauté Meetup, Twitter & Facebook.

--

--

Epidemium
EPIDEMIUM

Exploring New Paths to Cancer Research with Epidemium: a data challenge oriented and community-based open science program #Open #Data #Science