Crowdsourcer une épidémiologie du cancer

Dr Mehdi Benchoufi, Dr Perrine Créquit & Pr Philippe Ravaud

[Livre blanc | Partie II, Article 2]


La santé, et singulièrement l’épidémiologie, sont touchées en profondeur par les mutations technologiques en cours, et ce, sous le double impact de la production d’un volume inégalé de données et de l’implication croissante de communautés. Faut-il encore trouver les voies et méthodes pour en exprimer le potentiel. De nombreuses techniques d’engagement des communautés sont aujourd’hui pratiquées (micro-tasking, mega-tasking) et laissent augurer d’approches épidémiologiques originales, larges, distribuées, empruntes de dynamiques réticulaires et sociales, augmentées par le temps réel et, tel que le projet Epidemium, en défriche la promesse, puissamment inclusives.


Le monde de la santé est bouleversé dans ses pratiques et secoué dans ses usages par le double impact des masses de données et des masses d’individus qui s’invitent dans le jeu de la recherche bio-médicale, c’est-à-dire par l’émergence du big data et par l’implication croissante et communautaire de la société civile, lesquels se hissent à la hauteur des défis de la médecine contemporaine. L’épidémiologie, par essence tournée sur l’usage de données et la capture d’initiatives extérieures à celles menées par son corps de praticiens usuels, est aussi bien un poste d’observation qu’un champ d’expérimentation de cette nouvelle donne. L’épidémiologie vit un changement que nous pouvons, sans trop nous avancer, qualifier de paradigmatique.

En effet, les exemples de nouveaux usages en épidémiologie, fruits d’approches singulières de la part d’acteurs tiers au système de santé, sont nombreux. D’ailleurs, ils sont souvent présentés comme des exemples significatifs du potentiel né de la fertilisation croisée de données gigantesques, de la capacité de calcul nécessaire à leur traitement et de la masse d’internautes capables de s’impliquer dans leur analyse.

Lorsque le potentiel des données massives est catalysé par des communautés d’individus aptes à les travailler, le fruit de cette composition, soit le crowdsourcing [faire appel à l’intelligence collective pour traiter d’un objet ou d’une problématique], peut doter l’épidémiologie de moyens nouveaux et intéressants. Le crowdsourcing est efficace en ce qu’il permet la mobilisation et la mutualisation d’une force de travail largement distribuée. Sa forme minimale mais la plus répandue, dite micro-tasking, qui consiste à subdiviser une tâche complexe en une somme de tâches élémentaires, est un des modes de recours au crowdsourcing le plus fréquent en recherche biomédicale. Il se fait selon un jeu de contre-parties, le plus souvent financières.

« Les big data vont permettre de déceler les facteurs responsables de l’émergence du cancer chez les patients, et de modifier notre approche de la santé publique en France. », Muriel Londres, membre du Comité d’éthique indépendant

Il est aussi une autre forme de crowdsourcing, parfois qualifiée de mega-tasking, témoignant de la volonté de s’impliquer, de se rendre utile en contribuant, de mettre à profit des compétences non médicales à la faveur d’un enjeu de société. C’est une marque de notre époque. Epidemium en aura été un exemple concluant. L’envie d’engagement, l’idée de se hisser sans complexe à la hauteur de challenges ambitieux, que nous avons pu apprécier tout au long du Challenge4Cancer, est une manifestation d’un mouvement général, parfois appelé Do It Yourself (DIY), témoignant de l’idée que si les problèmes nous concernent tous, alors les solutions appartiennent à chacun.

Du crowdsourcing au crowdacting

Internet est crowdsourcing. Avec la somme de nos interactions, nous l’alimentons quotidiennement d’une masse de données considérables qui sont qualifiées par de grandes plateformes, pressées, raffinées, transformées pour en extraire la valeur d’usage, c’est-à-dire la valeur capitalistique, et pas assez encore la valeur scientifique. L’abondance de ces petabytes de données peut être vu comme un crowdsourcing naturel ou passif. En effet, à l’ère d’Internet, tout est « donnée », et d’ailleurs tout est donné par les internautes. Nous distinguerons donc un crowdsourcing qui est la substance active d’Internet, d’un crowdsourcing plus volontaire que nous qualifierons de crowdacting.

L’épidémiologie est, entre autres, l’étude des déterminants des maladies. Elle ne restera pas insensible à l’impact des évolutions que nous évoquons. Ses moyens de connaissance et ses moyens d’interventions, dans le temps et dans l’espace, sont aujourd’hui augmentés. D’une part, les données élargissent et approfondissent nos clés de compréhension de la genèse des maladies. D’autre part, la dématérialisation des supports dont la transition numérique est le média, la reformulation de l’espace, aujourd’hui sans territoire, et du temps, présent perpétuel, donnent à notre discipline une capacité d’action dite en temps réel, dont on apprécie le potentiel dès lors que l’on imagine le contrôle de la propagation des maladies.

Au-delà, on comprend que, d’une part, la diversité et la masse des données produites par nos systèmes confèrent les outils pour amplifier considérablement la connaissance de notre environnement, de nos comportements, et que, d’autre part, la mutualisation des efforts de recherche, impliquant aussi bien les circuits académiques que des citoyens experts, est une opportunité décisive. Ces citoyens avides et acteurs d’une science plus ouverte sont à la fois force d’appui et de démultiplication du travail, dans une optique de délégation de micro-tâches, et peuvent aussi bien, selon le modèle de type challenge dont Epidemium est un avatar, fournir des moyens de connaissances hétérodoxes.

Exemples de crowdsourcing

Crowdsourcing passif

// Quelques exemples

Par des moyens de crowdsourcing, l’initiative HealthMap [développée par des chercheurs, des épidémiologistes et des développeurs au sein du Children’s hospital de Boston, permet de suivre en temps réel le développement et la diffusion d’une maladie en récoltant toutes sortes de données sur le Web] a détecté une fièvre suspecte en Afrique avant même que les autorités sanitaires ne soient alertées par ce que l’on découvrira être la fièvre Ebola. La méthode consiste ici à opérer une analyse continue d’une masse de données hétérogènes collectées depuis des sources d’informations variées : sites experts, blogs, réseaux sociaux, forum de santé. Ces dernières sources étant typiquement le fruit d’un crowdsourcing passif ou plutôt d’un crowdsourcing au sens littéral : rassembler les données de la foule depuis la source dans lesquelles elles sont produites.

Indiquons que les exemples les plus inspirants ne procèdent pas nécessairement de succès fracassants mais éclairent des approches expérimentales prometteuses, pavent des chemins nouveaux et sont parfois les échecs qui annoncent les victoires. Parmi ceux-là figure le très abondamment commenté Google Flu [initiative lancée en 2008 par Google qui visait à prévoir les épidémies de grippes à partir des requêtes faites sur son moteur de recherche]. Au terme de cette expérience, Google Flu n’a pas réussi, comme cela en était le propos, à anticiper ni prédire la diffusion de la grippe. En revanche, nous tiendrons pour intéressante l’idée de pouvoir se donner une intuition du phénomène en contournant le labeur de la récolte « manuelle » et l’agrégation des données, de la synthèse minutieuse de ces informations, de leur analyse par des cellules de veille expertes. C’est là l’économie de moyens qui permet de compléter le travail des hommes par une approche automatisée via des algorithmes. Indiquons tout de même que, pendant deux années consécutives, Google Flu a réussi à prédire fidèlement, en avance sur les systèmes de veille sanitaire, l’évolution de la grippe. Disons que l’algorithme manque la cible mais ce que nous en retiendrons, c’est qu’il n’en est pas loin.

« En effet, dans le sport collectif et décentralisé que deviendrait la recherche en épidémiologie, l’épidémiologiste est aussi community manager. »

// Un crowdsourcing augmenté : le potentiel du machine learning

À ce stade, nous devons faire état d’une approche technologique essentielle qu’est le machine learning, lequel consiste à éduquer des ordinateurs en leur faisant apprendre des données, qui en retour acquièrent de l’expérience et affûtent leur capacité d’analyse préventive, prédictive, voire pour certains cognitive. Ces techniques sont particulièrement requérantes et dépendantes du volume de données. Les masses de données de santé dont disposent les systèmes sanitaires peuvent être perçues comme le fruit d’un crowdsourcing passif et sont alors un élément précieux qui offre des perspectives d’innovation thérapeutique à pharmacopée constante.

Ces techniques valent des résultats spectaculaires : la victoire de l’intelligence artificielle de Google dans le jeu de Go, la détection automatisée de tumeurs à partir d’images scannographiques, …

Bien sûr, le volume des données ne confère pas en soi un avantage d’analyse statistique. En revanche, certains algorithmes tirent leur puissance au fur et à mesure qu’ils sont dotés en données. Il en va ainsi d’un domaine particulièrement populaire, à savoir les réseaux de neurones, dont certains résultats sont tout à fait spectaculaires. Cette approche est d’une certaine façon bio-mimétique, elle rassemble des neurones comme autant d’unités de calculs dont les règles de calcul sont précises et les paramètres fluctuent au fur et à mesure des données processées.

Crowdsourcing actif

// Micro-tasking

Le micro-tasking illustre bien l’engagement des communautés à participer à la co-construction de leur santé, ainsi que les effets de levier importants que représentent ces mobilisations pour les chercheurs, permettant d’accéder à la réalisation de tâches jusqu’alors difficiles, moins par leur complexité intrinsèque que par le temps-homme considérable qu’elles requièrent. Le projet Embase, conçu par la Collaboration Cochrane, est un bon exemple de division et de parallélisation de tâches, consistant à identifier les rapports d’essais cliniques provenant d’Embase, une vaste base de données bibliographiques, à des fins de publication dans le registre central de la Cochrane. Il est notable qu’aucune expertise préalable n’est attendue des participants, lesquels peuvent être naïfs de toute connaissance médicale.

Dans l’esprit d’une recherche médicale plus inclusive, les projets Compare ou Nutrinet permettent à des patients de s’engager dans des études cliniques en ligne et de participer ainsi à la marche d’une recherche médicale plus ouverte, esquissant la promesse d’une médecine à la fois participative et contributive. En effet, dans Compare, les patients atteints de maladies chroniques partagent leur données, répondent à des questionnaires, participent au choix des sujets de recherche, l’objectif étant de mobiliser jusqu’à 200 000 patients.

Barbara Govin - CC BY NC ND

Selon une approche originale, Epidemium montre qu’autour d’un Challenge, les communautés trouvent des formes d’organisation sinon spontanées, au moins proches de celles auxquelles les conforment le plus les compétences qu’elles rassemblent. Ainsi, certaines équipes, à défaut d’expertise médicale ou informatique, se sont lancées dans un travail de collection et de nettoyage des données remarquable. Par exemple, le projet Baseline a pu développer une riche base de données dans près de 98 pays et rassemblant près de 107 facteurs de risque, dont le fruit est aujourd’hui exploitable par des équipes de recherche.

D’autres équipes plus aguerries à l’art de la data science ont pu mettre au point des algorithmes. Notons chez beaucoup de participants une fraîcheur hardie à s’emparer de sujets requérant parfois la maîtrise d’un socle de connaissances important, le poids de l’autorité sur ces sujets n’agissant plus.

Indiquons qu’à l’occasion de ce Challenge, nous avons pu constater la capacité inclusive du micro-tasking car de nombreux participants n’avaient pas les compétences requises tout en se montrant désireux d’apporter leur pierre à l’édifice. Si bien que nombre de propositions nous ont été faites pour proposer à la communauté des tâches plus élémentaires et à portée du tout venant : recherche de jeux de données ouverts, mise en place d’outils méthodologiques, animation de communauté à des fins de recrutement, documentation sur un wiki, etc.

// Mega-tasking

Les possibilités du crowdsourcing sont vastes, allant du micro-tasking à des problèmes complexes que des individus résolvent sans qu’on ne leur en connaisse l’expertise ou la formation. Ces derniers forment là ce que Jimmy Wales appelle « les experts de leur propre expérience » (Wales, 2008). Nous emprunterons à un domaine éloigné de l’épidémiologie un exemple qui illustre un autre aspect du formidable potentiel du crowdsourcing, à savoir FoldIt. Il s’agit d’une initiative de l’université de Washington, à Seattle, dont l’idée est l’étude de la dynamique liant la structure des protéines dans l’espace à leurs propriétés fonctionnelles, dynamique encore mal comprise à ce jour. La question étant fort délicate, et étant donnée l’observation de chercheurs selon laquelle la manipulation régulière de ces protéines donne à ses praticiens une science empirique et intuitive de la façon dont elles se plient sur elles-mêmes, la plicature leur conférant par là-même leur propriété fonctionnelle, des chercheurs ont eu l’idée d’ouvrir un concours et de proposer au tout venant une plateforme en ligne sur laquelle il est demandé de résoudre un problème de plicature des protéines inaccessible au calcul machine. C’est ainsi que des internautes ont montré des facultés à deviner les logiques de conformation tri-dimensionnelle des protéines alors même qu’ils étaient naïfs de toute connaissance en biologie moléculaire. La compréhension de la structure tri-dimensionnelle de la protéase rétrovirale du virus M-PMV, qui fournit un modèle proche du VIH pour tester d’éventuelles molécules inhibitrices, a résisté aux assauts des chercheurs pendant près de dix ans mais a cédé aux efforts des internautes en trois semaines grâce à ce concours. Ceci a fait l’objet d’une publication dans Nature Structural & Molecular Biology (Khatib, Di Maio, Cooper, Kazmierczyk, Gilski, Krzywda, … & Jaskolski, 2011).

Le fait communautaire est un des faits marquant de l’histoire d’Internet, il en est peut-être la nature même. Dans le domaine de la santé, les forums abondent et les communautés de santé sont à l’initiative : qu’il s’agisse de tagger leurs maladies et les effets secondaires des traitements afférents sur des sites tels CureTogether, de mutualiser des données de pollution depuis des objets connectés, de monitorer et partager des paramètres physiologiques dans des communautés dites de self-quantify, de cartographier des renseignements de première urgence, tels des défibrillateurs ou des accès pour personnes handicapées l’émergence d’une intelligence collective, de l’auto-saisine des communautés des problématiques de santé qui les concernent. Ces formes de crowdsourcing massives les érigent comme des acteurs à part entière de l’entreprise de construction du savoir médical.

« L’abondance de données va permettre de nouvelles études épidémiologiques pour définir de nouvelles normes [de nouveaux symptômes qui permettent d’améliorer le diagnostic, ndlr]. », Dr Jean-François Thébaut (Usine Digitale, 28/04/16)

Tout cela illustre la force de l’ouverture de la science à des dynamiques communautaires. Il appartient aux épidémiologistes de mesurer les opportunités d’éventuelles découvertes et de révéler le plein potentiel qui peut naître d’un assemblage hétérodoxe entre l’expert et le profane.

Une épidémiologie globale

Dans ses méthodes

La recherche bio-médicale est un monde en voie de co-développement. Elle doit intégrer la puissance des logiques distribuées, s’ouvrir par et dans ses méthodes à celles et ceux qui veulent la co-construire. Elle a beaucoup à apprendre, à ré-utiliser et à se voir proposer. Il s’agit de sortir des logiques de domaine réservé.

L’épidémiologie, augmentée des possibilités qu’offre le crowdsourcing, sera amenée à bâtir de nouvelles interactions avec de nouveaux impétrants dans son domaine historique. Elle doit se munir d’interfaces permettant d’inclure des contributions depuis un milieu qui, encore aujourd’hui, correspond à son environnement extérieur.

Dans ses dimensions

L’épidémiologiste nouveau doit appréhender de nouvelles dimensions : l’animation de communauté, le partage et le co-développement de ses outils avec les citoyens-experts, dans le lien entretenu d’une réciprocité construite. Il doit estimer l’importance de la diversité des enjeux et inscrire sa démarche dans un contexte global, incluant la dimension médicale comme une dimension critique certes, mais en étroite articulation avec un contexte communautaire, juridique et éthique.

Dans sa co-construction

En effet, dans le sport collectif et décentralisé que deviendrait la recherche en épidémiologie, l’épidémiologiste est aussi community manager [profil qui vise à animer, développer et fédérer une communauté], il sait bâtir un lien de confiance avec des individus dont il est conscient du souci de la protection des données personnelles et il maîtrise les questions de propriété intellectuelle. Il est le pivot, l’animateur d’une communauté et l’intégrateur de contributions dans leur diversité.

Nous noterons que l’épidémiologiste n’a guère besoin de s’égarer loin dans le web pour faire communauté car l’épidémiologie peut tout d’abord s’ouvrir à elle-même et intégrer dans son corpus de méthodes la nécessité de partage de bonnes pratiques, de documentation de ses méthodes, de veille collaborative et de problem co-solving. Des plateformes de crowdsourcing telles que Meta Stack Exchange permettent ainsi d’envisager des solutions de co-construction du savoir dans de très nombreux domaines : informatique (Stack Overflow), mathématiques (Mathematics Stack Exchange) et statistiques.

La méta-épidémiologie

Le champ de recherche émergent qu’est la recherche sur la recherche, et qui est sans doute l’un des domaines de la science médicale les plus déterminants, est tout entier tendu vers l’amélioration de la reproductibilité de la recherche. L’effort de nombreuses communautés pour rendre manifestes et porter à l’attention du public les erreurs, les conflits d’intérêt et les fraudes de la recherche bio-médicale, montre une capacité certaine de la société civile à partager et crowdsourcer la veille transparente de la littérature scientifique, et à être l’alliée utile, naturelle et spontanée de la recherche clinique.

Conclusion

« Rien ne se perd, tout se transforme. »
Loin des mauvais augures qui craindraient la disparition de l’expert au profit du tout-venant citoyen, puis celle du tout-venant au profit de la machine, aucun de ces acteurs ne disparaît ; au contraire, tous sont émergents. En revanche, leurs rôles respectifs évoluent, les compétences se mettent en réseaux, les idées se diffusent bien au-delà des limites dans lesquelles les disciplines les enserrent. Les experts ont un rôle à jouer dans la fabrication du savoir mais aussi dans sa transmission et son interopérabilité dans des formats intelligibles. Ainsi devrait-il en aller de leur nouvelle responsabilité de s’assurer de maintenir une accessibilité et une connectivité maximales aux fruits de leurs savoirs, soit autant d’interfaces entre leur discipline et le monde qui ne lui serait extérieur que depuis l’intérieur.

« Pour faciliter encore ce type de recherche, il faudrait que plus de données soient ouvertes et accessibles et ce, de manière sécurisée et éthique. », Olivier de Fresnoye (Up Le Mag, 09–11/16)

Il s’agit de consacrer des outils et des méthodes pour assurer la transmission dans un format accessible, qu’il s’agisse de données de contenus pédagogiques ou d’animation d’une communauté. Ces interfaces sont des points d’articulation essentiels sur lesquels peuvent s’amarrer des communautés plus ou moins informelles de challengers.

Ainsi l’épidémiologie, comme tous les champs du savoir qui ne sont la propriété exclusive de personne, doit être prête à se laisser penser ou modeler par ceux qui n’en sont pas les pratiquants certifiés.

Au total, le maître mot de l’épidémiologie à venir nous paraît être l’ouverture. L’ouverture est un état d’esprit, l’idée qu’une science est par essence ouverte à la réflexion de tous et qu’elle n’est pas une marque déposée. Elle est une pratique, elle est un moyen de s’offrir à un volume beaucoup plus large de propositions et d’efforts.


Bibliographie :

  • Khatib, F., Di Maio, F., Cooper S., Kazmierczyk M., Gilski M., Krzywda S., … & Jaskolski M. (2011). “Crystal structure of a monomeric retroviral protease solved by protein folding game players” dans Nature structural & molecular biology, 18(10), 1175–1177.
  • Wales J. (2008). “The wisdom of crowds” dans The Observer, Londres, 22 juin 2008, disponible en ligne, dernière consultation le 30 novembre 2016.

Auteurs :

BENCHOUFI Mehdi, Équipe coordinatrice Epidemium : Médecin de santé publique à l’Hôtel-Dieu, agrégé de mathématiques, Mehdi est fondateur du Club JADE, think tank dédié aux enjeux socio-politiques du numérique (big data, open culture, open science). Il travaille à des projets collaboratifs de mise au point de technologies médicales en open source.

CRÉQUIT Perrine (Dr) : Pneumologue, Méta-analyse en réseau et cancérologie.

RAVAUD Philippe (Pr), Membre du Comité scientifique d’Epidemium : Professeur d’épidémiologie à l’Université Paris Descartes et à la Columbia University, directeur de recherche INSERM, directeur du Centre de Recherche en Épidémiologie et Statistique Sorbonne Paris Cité, directeur du centre d’épidémiologie clinique de l’Hôtel-Dieu (Paris), directeur de Cochrane Français, directeur du Centre EQUATOR France.

Retrouvez la version web du Livre blanc.

Rejoignez la communauté Meetup, Twitter & Facebook.