Le pouls du programme

Par Djalel Benbouzid, Léo Blondel & Marc Santolini

Epidemium

Published in

EPIDEMIUM

13 min readFeb 9, 2017

[Livre blanc | Partie I, Article 2]

Grâce aux nouvelles technologies, il est aujourd’hui possible d’analyser quantitativement l’activité d’équipes travaillant de manière collaborative. Dans le cas du Challenge4Cancer organisé par Epidemium, plusieurs outils numériques ont été mis à la disposition des participants. Ainsi, c’est l’analyse de l’activité de ces outils utilisés par tous, comme le site web, le Wiki, le Q&A et la plateforme Meetup qui nous permet de cerner les comportements des membres de la communauté au sein du Challenge, de mesurer leur engagement et finalement de formuler des recommandations pour la suite du programme.

L’équipe de coordination d’Epidemium a mis en place plusieurs outils en ligne lors du Challenge4Cancer (C4C) afin de créer un environnement de travail virtuel collaboratif dans lequel les membres de la communauté pouvaient s’informer sur le programme, le Challenge et les thématiques connexes, mais aussi interagir entre eux et mener à bien leur projet.

Notre analyse se fonde sur les données collectées sur le groupe Meetup d’Epidemium ainsi que sur les trois outils mis en place par l’équipe Epidemium et largement utilisés par tous les participants au C4C :

Le site web, ouvert le 5 novembre 2015, qui permettait principalement de s’inscrire au C4C et s’informer ;
Une partie Wiki, ouverte le 1er octobre 2015 et rendue publique le 5 novembre 2015, pour documenter et partager avec la communauté les avancées des différents projets ;
Une section Q&A, ouverte le 23 février, pour échanger avec tous les membres de la communauté élargie en posant des questions et en répondant à celles d’autres membres.

Toutes les données collectées pour la rédaction de cet article, ainsi que les formules employées pour leur analyse sont disponibles sur GitHub.

Une communauté engagée

Le premier niveau d’analyse de données est celui des individus face aux outils en ligne mis à leur disposition par le programme lors du Challenge4Cancer. À partir de cette première lecture, nous pouvons avoir un aperçu assez précis des comportements des membres de la communauté et mesurer leur niveau d’engagement et d’appropriation face à ces différents outils en ligne.

Tout d’abord, dans la figure n°1 (voir ci-dessous), il est possible d’observer l’évolution temporelle de l’activité des membres sur le groupe Meetup d’Epidemium depuis sa création, le 9 septembre 2015, à sa clôture, le 5 mai 2016. Le nombre d’utilisateurs inscrits, ici en vert, a connu une augmentation stable tout au long du Challenge, avec cependant un creux correspondant à la période des vacances de Noël. Avec le nombre de membres actifs en orange, c’est-à-dire qui ont visité le groupe au moins une fois durant les trente jours précédents, nous pouvons voir émerger plus clairement deux périodes. La première commence peu avant le début du Challenge, puis la seconde démarre après le creux d’activité des fêtes de fin d’année, et voit une augmentation d’environ 50% sur l’activité des membres. Cette tendance a été renforcée par « le point de mi-parcours », événement organisé le 12 mars 2016, pour les équipes qui souhaitaient y participer, et qui leur proposait de venir confronter leurs approches, leurs hypothèses et leurs méthodologies aux membres des deux comités d’éthique et scientifique, sur la base d’une documentation intermédiaire, d’une part, et d’une présentation orale publique de leurs avancées, d’autre part.

La figure n°1 montre ainsi qu’il y a eu un recrutement constant de nouveaux membres pour participer au Challenge4Cancer. Par ailleurs, la courbe des nouvelles inscriptions ne montre aucun signe de saturation et, par conséquent, laisse à penser que le nombre potentiel d’individus à la fois intéressés et susceptibles de participer au Challenge était bien supérieur au nombre réellement atteint.

Avec la figure n°2 (voir ci-dessous), nous pouvons observer l’évolution temporelle des visites des trois outils en ligne mis à la disposition des membres (site web, Wiki et Q&A) pour en développer une analyse à partir du lancement officiel du C4C jusqu’au 20 juillet 2016. Le décalage des courbes tient du fait que les données Google analytics ont été récupérées sur des périodes de temps différentes. En effet, la collection de données a commencé le 14 novembre 2015 pour le site web, le 2 février 2016 pour le Wiki et le 23 février 2016 pour le Q&A. On note que l’attraction des trois plateformes a été stable et similaire (pentes semblables) au cours du Challenge, avec une nette réduction des visites suite à l’événement de clôture et la finale du C4C. Néanmoins, les visites ont continué jusqu’à trois semaines après la fin du Challenge, révélant ainsi un intérêt de la part de la communauté mais aussi certainement d’acteurs extérieurs pour la lecture des résultats du Challenge.

Enfin, les panels de la figure n°3 (voir ci-dessous) montrent les corrélations d’utilisation entre les trois outils durant le Challenge4Cancer, de son lancement, le 5 novembre 2015, jusqu’au lendemain de sa clôture, le 6 mai 2016. Lorsqu’un utilisateur se connecte, une session est ouverte sur Google analytics, permettant de suivre les utilisateurs sur les trois outils : il est donc possible de savoir quelles plateformes ont été visitées. Chaque jour, le nombre total de visites par site est recueilli, chaque utilisateur comptant de manière unique quelque soit le nombre de visites effectuées. Le nombre de visites des différentes plateformes est ensuite comparé. On observe une très forte corrélation entre les visites sur les trois outils. Ainsi, nous pouvons en déduire que les visiteurs et participants du Challenge ont utilisé de manière égale l’ensemble des outils mis à leur disposition et que ces derniers, loin d’être redondants, s’inscrivent dans une réelle complémentarité et répondent chacun à un besoin des participants, qu’il ait été anticipé ou révélé lors du Challenge.

Constitution des équipes et méthodes de travail

En revanche, c’est la nature même du programme, qui cherche à appréhender l’épidémiologie du cancer différemment en exploitant le potentiel du big data, qui a stimulé la collaboration entre experts de domaines habituellement très éloignés. Nous présentons ici cette dimension collaborative en y dévoilant les aspects de dynamique temporelle et de structure interne.

Regroupement par équipes

De la lecture de ces trois graphiques émerge nettement le constat qu’une équipe a mobilisé un nombre bien plus important de contributeurs que les autres. En analysant le contenu des pages Wiki qui, dans l’ergonomie du Challenge, recueillent le travail des équipes, nous observons que quatre d’entre elles ont produit la majorité des « éditions » ou edits, que ce soit en nombre ou en taille.

Ainsi, le format du Challenge a conduit à un regroupement des forces de travail en quelques équipes productives plutôt qu’à une multiplication des équipes indépendantes les unes par rapport aux autres. Il faut noter que la productivité est mesurée ici par l’édition Wiki, ce qui ne représente pas la totalité du travail fourni : certaines équipes ont pu, par exemple, produire du code sur Github, créer des notebooks Jupyter [outil interactif permettant de présenter un plan expérimental complet en mélangeant du code exécutable, de la documentation ainsi que des visualisations interactives] ou utiliser d’autres outils, extérieurs à ceux mis à disposition directement par Epidemium. Ainsi, nos analyses dévoilent la partie émergée de l’iceberg et ne peuvent rendre compte de la productivité réelle de tous les groupes.

Analyse des compétences et temporalité du travail collaboratif

Comme nous pouvons le déduire de la figure n°5 (voir ci-dessous) l’engagement de la communauté, mesuré par l’activité des participants au C4C, a été assez uniforme au cours de la semaine, avec un pic d’activité le jeudi midi, et de manière générale dans l’après-midi et en soirée, donc notamment sur leur temps libre et les pauses repas.

En regardant les interactions entre les différentes équipes dans la figure n°6 (voir ci-dessous) émerge clairement le fait que très peu de participants ont contribué à plusieurs projets, même si cela n’était pas interdit par le Règlement. Cette concentration des efforts individuels sur des projets uniques a sûrement réduit la dispersion d’énergie mais elle a peut-être aussi limité le développement de projets transversaux à plusieurs équipes. Afin de mettre à l’échelle un tel Challenge, il sera important de penser la systématisation d’une meilleure porosité et coopération entre équipes pour articuler et aligner les projets spécifiques au bénéfice d’une vision d’ensemble.

Enfin, la figure n°7 (voir ci-dessous) nous donne un aperçu très clair de la riche pluridisciplinarité de la communauté, tout en montrant que la participation du monde de la médecine et de la santé reste certainement à renforcer en dépit d’une thématique générale du programme assez équilibrée entre médecine et big data.

Structure et dynamique de travail des équipes : analyse de l’édition du Wiki de l’équipe n°5

Nous présentons ici les résultats de l’analyse des données du Wiki de l’équipe 5, la plus active au sein du Challenge4Cancer et celle qui possède les données les plus fournies sur le Wiki.

En figure n°8 (voir ci-dessous) figurent les réseaux de conversations issues des pages projets. Ces réseaux sont construits en joignant, par un lien dirigé, deux utilisateurs lorsque l’un a édité juste après l’autre. La direction va du prédécesseur au suiveur. La couleur plus ou moins foncée d’un lien dépend du nombre de fois qu’une telle succession a été mesurée. La taille des nœuds, quant à elle, représente le nombre d’edits d’un utilisateur donné. L’effet réseau est très intéressant chez l’équipe 5, pour laquelle de nombreux membres ont contribué à la page Wiki du projet, faisant apparaître un réseau dense et collaboratif. Au sein de ce dernier, un groupe d’acteurs se démarque plus particulièrement, qui semble avoir joué un rôle important dans la gestion du projet. Cet effet réseau peut être quantifié par le degré des nœuds. Cette mesure quantifie l’importance d’un nœud en mesurant le poids total des liens qui le relient aux autres nœuds du réseau. Cela permet de distinguer un leadership, si ce n’est du projet, du moins de l’écriture de la page projet.

Les figures n°9 (voir ci-dessous) montrent les analyses temporelles détaillées de l’édition du Wiki. Les deux premiers graphiques montrent les distributions cumulatives du nombre d’edits et la taille de ces derniers au cours du temps. Nous qualifions d’edit une soumission par un utilisateur ; sa taille dépend de la quantité de texte soumise. Les points rouges représentent les événements Meetup organisés par l’équipe Epidemium. Dans le cas de l’équipe 5, nous constatons que la majorité des edits a été réalisée sur une période relativement courte. De plus, les edits les plus importants en taille précèdent généralement un événement, ce qui peut dénoter un effet de préparation de type date limite. Enfin, le dernier graphique montre la distribution de l’intervalle de temps entre deux edits. Ceci informe sur la manière de travailler d’une équipe. En particulier, lorsque représentée en échelle logarithmique (log-log), une distribution montrant une queue linéaire est indicatrice d’une forme de travail par « salves » (bursts) — on parle de distribution invariante d’échelle (Barabasi, 2016). Ainsi, alors que la plupart des éditions se suivent de près, formant des salves d’activité, il y a de manière occasionnelle des temps exceptionnellement longs entre deux éditions. Les lignes rouges indiquent les intervalles de temps correspondant à la minute, la demi-journée (12h), la journée et la semaine. On observe au sein de l’équipe 5 un tel comportement par salves marqué au cours d’une journée de travail (période avant la deuxième barre rouge) ainsi qu’au cours de la semaine, même si moins fort (période après la deuxième barre rouge, pente plus forte).

Ces résultats se généralisent aux autres équipes ayant fait assez d’edits sur le Wiki pour être pris en compte (voir figure n°12 ci-dessous). Il est d’abord à noter que l’équipe coordinatrice Epidemium doit être mise à part en tant qu’elle est l’équipe organisatrice et que son édition du Wiki donne lieu à un contenu particulier, à savoir la documentation du programme dans son ensemble et des informations quant à sa structure. Il apparaît alors une édition relativement stable au cours du Challenge et une manière de travailler par salves similaire à l’équipe 5. Cela montre l’effort continu de supervision du Wiki, permettant sans doute un cadre favorisant un travail organisé. Pour les autres équipes de la figure n°12, les équipes 11 et 12 expriment une certaine périodicité d’édition (« bosses » dans le panel de droite) alors que l’équipe 13 montre un travail par salves sans périodicité typique, similaire à l’équipe 5. Comme précédemment, un effet meetup apparaît, avec notamment une accélération après le point de mi-parcours, qui semble donc avoir porté ses fruits en tant qu’il avait été pensé comme un premier point d’étape pour les projets, venant ponctuer les six mois de Challenge.

Ainsi, la communauté a su faire émerger au sein des équipes-projets un travail collaboratif et productif dont l’équipe 5 est le symbole. Deux types de dynamiques émergent de ces études : une dynamique d’édition par salves qui est typique d’un travail continu sans synchronisation globale préalable (équipes 5 et 13) et une dynamique marquée par plus de périodicité, indiquant peut-être des rendez-vous pré-établis (équipes 11 et 12). Le rôle des événements organisés par Epidemium, et notamment le point de mi-parcours, est manifeste et a contribué à créer une dynamique d’engagement et de productivité.

Discussion

Les données recueillies par Epidemium nous ont permis de mener dans cet article une analyse de la dynamique d’auto-organisation des contributeurs à un projet open science. Nous avons pu dégager de cette analyse plusieurs réussites.

D’abord, nous avons pu observer l’effet positif d’une activation continue de la communauté sur la progression constante des inscriptions au Challenge4Cancer ainsi que de l’activité sur les différents outils en ligne mis à la disposition de la communauté. Cette corrélation démontre le grand potentiel de mobilisation de la thématique ainsi que l’efficacité des stratégies mises en place par l’équipe coordinatrice. L’engagement de cette communauté a été particulièrement fort lors de deux moments de synchronisation globale : le lancement du C4C et le point de mi-parcours. De plus, la communauté engagée s’est appropriée les différents outils que nous avons ici étudiés, proposés dans le cadre du C4C, à savoir le Wiki, le Q&A et le site web. L’analyse des données Wiki a montré une auto-organisation des acteurs en équipes aux méthodes de travail diverses. Une équipe de taille importante (plus de 30 contributeurs déclarés) a émergé, avec différents degrés d’implication, laissant apparaître une hiérarchie avec un petit groupe central. D’autres équipes de taille plus réduite ont montré une organisation plus simple avec une seule personne éditant la majorité du Wiki (données non montrées). Par ailleurs, deux dynamiques temporelles ont émergé, selon que les équipes ont travaillé de manière périodique ou de manière auto-organisée, sans temporalité pré-déterminée. Enfin, l’équipe coordinatrice d’Epidemium a réalisé un travail continu d’animation de la communauté tant dans la structuration du contenu du Wiki que dans l’animation des événements. Le rôle de cette animation s’est fait ressentir dans la communauté et ses contributions : les événements ont cristallisé des échéances qui ont rythmé le travail des équipes et qui ont parfois permis une resynchronisation des utilisateurs passifs en attente d’une possibilité d’engagement.

Ce Challenge constitue un événement sans précédent pour l’open science. Il fournit une preuve de concept à la lumière de laquelle il est possible de penser le futur d’un tel programme et les améliorations possibles. Nous recommandons tout particulièrement la mise en place d’un écosystème d’outils de travail connectés pour faciliter l’analyse en temps réel de la collaboration au sein des équipes. Cela serait bénéfique à la fois pour l’équipe coordinatrice et pour les participants. La première pourrait synchroniser son action aux besoins et à la dynamique de la communauté. Les seconds auraient une meilleure visibilité de l’ensemble des interactions en cours, favorisant ainsi leur engagement. La mise en place de ces outils permettrait une mise à l’échelle du programme et une nouvelle preuve de concept de l’animation d’une communauté massive et ouverte.

Bibliographie :

Barabási A.L. (2016). Network Science. disponible en ligne, dernière consultation le 30 novembre 2016.
Börner K., Contractor N., Falk-Krzesinski H.J., Fiore S.M., Hall K.L., Keyton J., Spring B., Stokols D., Trochim W. et Uzzi B. (2010). “A multi-level systems perspective for the science of team science” dans Sci Transl Med, septembre 15, 2, 49cm24, disponible en ligne, dernière consultation le 30 novembre 2016.
Klug M. et Bagrow, J.P. (2016). “Understanding the group dynamics and success of teams” dans Royal Society Open Science, 6 avril 2016, disponible en ligne, dernière consultation le 30 novembre 2016.
Nielsen M. (2012). Reinventing discovery : the new era of networked science. Princeton University Press.
Wuchty S., Jones B.F. et Uzzi B. (2007). “The increasing dominance of teams in production of knowledge” dans Science, mai 18; 316(5827):1036–9, disponible en ligne, dernière consultation le 30 novembre 2016.

Auteurs :

BENBOUZID Djalel, Membre du Comité scientifique d’Epidemium : Docteur en machine learning, post-doc au laboratoire LIP6, Université Pierre et Marie Curie.

BLONDEL Léo : Doctorant en biologie computationnelle à Harvard, Léo est passionné de sciences. Ayant grandi dans l’univers du hacking et le monde du logiciel libre, il défend la nécessité de libérer la science. « Les cyborgs ont aussi une âme. »

SANTOLINI Marc : Chercheur postdoctorant au Center for Complex Network Research de Northeastern University et chercheur affilié à Harvard Medical School à Boston. Ses recherches portent sur la science des réseaux appliquée à la médecine ainsi qu’à l’analyse du travail en équipe dans la production scientifique.