Covid et Data #3 : Et si on se plongeait dans les bases mondiales…

Lina Kortobi
Wedodata
Published in
8 min readMay 11, 2020

Depuis le début de cette épidémie, les graphiques ont envahi les écrans. Face à cette profusion, chez Wedodata, on a souhaité prendre du recul, réfléchir à l’impact de ces visualisations sur des sujets de santé publique, tester des formats. On a décidé de vous faire partager les coulisses de ces recherches. Episode#3

Qui sont ces organisations qui centralisent les statistiques mondiales sur le Covid ? Cette question nous a taraudé après être tombés sur ce chiffre hallucinant : 2 004 décès liés au Covid-19 sur la seule journée du 4 avril en France. La valeur est pourtant presque deux fois supérieure à ce qu’annonce le Ministère de la Santé français ce même jour : 1 054 décès comptabilisés le 04/04/2020. Avions-nous fait une erreur d’agrégation au moment du traitement des valeurs à disposition ? Non, après vérifications, c’est bien la valeur fournie par le Centre européen de prévention et contrôle des maladies (CEPCM) à cette date. Ce même pic à 2 004 morts est d’ailleurs retrouvé dans les données fournies par l’Organisation mondiale de la santé (OMS). Idem pour Our World in data, plateforme en ligne largement consultée pour ses publications quotidiennes autour du Covid.

Quelles bases mondiales ?

Comment expliquer l’écart ? Pour le découvrir, nous décidons de comparer les chiffres nationaux à quelques bases de données mondiales de référence :

  • Celle de la Johns Hopkins University (JHU) — largement reprise par plusieurs médias pour ses comparaisons mondiales, et disponible en libre accès sur Github, plateforme de développement permettant de partager son travail en libre accès. Depuis la mise en ligne du site le 22 janvier, le nombre d’utilisateurs ayant eu accès aux données, est passé d’environ 200 millions à 1,2 milliard. Le tableau de bord a été créé par la professeure en génie civil Lauren Gardner, aidée de son élève Ensheng Dong. Sa maintenance est gérée par le CSSE, centre de recherche pluridisciplinaire de l’université. L’aide financière est apportée par JHU et la National Science Foundation.
  • Worldometers.info agrège les données provenant de milliers de sources en temps réel. Worldometers est géré “par une équipe internationale de développeurs, de chercheurs et de bénévoles”, leur but étant de “rendre la statistique mondiale accessible en temps réel, à destination d’une large audience”. L’entreprise américaine Dadax en est propriétaire, petite structure indépendante qui tire ses revenus de la publicité en ligne. “Nous ne sommes affiliés à aucune entreprise, organisation politique ou gouvernementale”, peut-on lire sur leur site.
  • L’OMS, citée plus haut. Près de la moitié des revenus de l’organisation sont fournis par ses États membres. Pour répondre à la pandémie, l’OMS a créé le “COVID-19 Solidarity Response Fund”, fond de solidarité ouvert à toute personne ou entreprise souhaitant faire une donation. Un tableau de bord a été mis en ligne pour un suivi de la situation.
  • Le CEPCM (European Centre for Disease Prevention and Control en anglais) est une agence européenne établie en 2005, dont la mission est “le renforcement des défenses de l’Europe contre les maladies infectieuses”. Son budget, alloué par l’Union européenne, était de 58 millions d’euros en 2018. Dans la série des “Covid dashboards”, son tableau de bord ne manque pas à l’appel.
  • Our World in data, plateforme gérée par l’université d’Oxford et l’ONG Global Change Data Lab, se finance grâce aux subventions de donateurs. 13 nouveaux indicateurs ont dernièrement été ajoutés au Github rattaché, un moyen de croiser les données sanitaires à d’autres variables (démographiques, économiques). Nous l’avons finalement retiré de la sélection, ses résultats étant calqués sur ceux du CEPCM. Mais le site, intuitif et regorgeant d’indicateurs sur le Covid, vaut le détour.

Et côté français, quelle base ?

Côté données françaises, les chiffres de l’Agence nationale de santé publique (Santé publique France) ont été délaissés au profit des “chiffres clés” d’OpenCOVID19-fr, “organisation informelle issue de la société civile dont l’objet est de consolider des données et de proposer des outils de visualisation concernant l’épidémie de COVID19 en France”. Ce travail agrège les données émanant de plusieurs sources nationales et régionales, dont celles en provenance du Ministère de la Santé — retenues dans nos comparaisons. Les chiffres du Ministère proviennent du point video quotidien mis en ligne sur le compte DailyMotion de l’institution. Pour plus de précisions, la méthodologie des “chiffres clés” est détaillée sur le Github associé.

Contrairement aux publications de Santé publique France sur data.gouv, qui ne répertorient que le nombre de décès en hôpital, ce travail présente une vision détaillée du bilan quotidien par lieu de décès (hôpital, Ehpad et établissements médicaux sociaux).

Comparaisons, qu’en ressort-il ?

Une fois les sources de données établies et un travail d’harmonisation des bases entre elles, vient le moment de la comparaison, puis celui décisif de l’interprétation. Qu’en ressort-il ? En faisant fi des multiples points de rapprochement possibles, quatre principaux points :

  • L’anomalie constatée au 4 avril s’appréhende en comparant la courbe des décès journaliers du CEPCM à celle de la JHU (Graph 1). Si l’on additionne les valeurs du 1er et 3 avril de la courbe bleue (JHU), nous retombons sur le fameux pic de la courbe verte (CECPM). Formulé autrement, 2 004 est le résultat de deux jours cumulés, survenu peu après la soudaine prise en compte des Ehpad et établissements médico-sociaux (EMS) dans le calcul des morts journalières. Les données ont depuis été actualisées par la JHU et le Ministère de la Santé — dont les courbes d’évolution sont quasi-similaires (Graph 1, Graph 2), mais l’afflux soudain a été ajouté d’un jour sur l’autre par trois de nos bases (Worldometers du 1er au 2 avril, l’OMS et le CEPCM du 1er au 4 avril). Le Centre européen alerte d’ailleurs sur les possibles écarts à noter entre ses valeurs et la donnée nationale, dûes aux latences entre le moment de la collecte et le fuseau horaire de la zone.
  • Cet écart peut d’ailleurs être observé sur le Graph 2. La courbe du CEPCM est quasi identique à celle du Ministère (hors pic du 4 avril)… translatée d’un jour.
  • Comme abordé au premier point, le changement méthodologique lié à la comptabilisation des morts en Ehpad au début du mois d’avril a suscité des perturbations majeures dans trois des cinq bases retenues (Worldometers, CEPCM, OMS). Le Graph 3 illustre la différence entre les variations des décès quotidiens tels que renseignés par le Ministère et ceux collectés par Worldometers. Comme nous pouvons le voir, la hausse soudaine le 1er avril (+371) est rééquilibrée par une baisse tout aussi importante (-371) le lendemain. 371 correspond bien au premier ajout des décès Ehpad et EMS le 1er avril par le dashboard d’Etalab, département en charge de la stratégie numérique du gouvernement et de la plateforme data.gouv. Worldometers indique d’ailleurs : “Conformément aux normes internationales d’inclusion, nos statistiques ajouteront ces décès au décompte du 2 avril 2020 […] Si le gouvernement français détermine et communique la répartition correcte de ces décès supplémentaires dans le temps, nous ajusterons les données historiques en conséquence.
  • Un coup d’oeil au Graph 4 permet de dégager deux groupes aux évolutions similaires : le Ministère de la Santé, JHU et Wordlometers d’une part. Le CEPCM et l’OMS d’autre part, dont les courbes adoptent par ailleurs des évolutions rigoureusement identiques à compter du 23 mars (Graph 5). Les divergences constatées avant sont liées à un changement d’heure de collecte chez l’OMS du 18 au 23 mars.

Quelles fréquences d’actualisation ?

Au vu des courbes, deux méthodologies se dégagent donc chez nos producteurs de bases mondiales : JHU et Worldometers actualisent leurs données en temps réel — ce qui expliquerait pourquoi leur tracé est si fidèle aux données du Ministère, tandis que le CEPCM et l’OMS le font à intervalles moins rapprochés, après un certain temps de traitement.

Ci-après le détail méthodologique pour chacune des bases :

  • La JHU “map monde” est générée en direct, à travers de multiples mises à jour quotidiennes, automatiques et manuelles. Ses sources incluent (entre autres) l’OMS, le Centre Américain de prévention et de contrôle des maladies, la Commission nationale de santé Chinoise, les statistiques publiques nationales et plusieurs sites agrégateurs, dont Worldometers, qui analyse, valide et agrège les données en provenance de plus de 5000 sources manuellement. Les données structurées sous forme de tableaux csv sont quant à elles mises à jour quotidiennement à minuit (GMT). Même exhaustivité du procédé pour Worldometers : leurs chiffres sont tirés des réseaux sociaux, de rapports gouvernementaux officiels, lorsque jugés fiables, de médias locaux, etc. “Parce que les agrégats nationaux ont souvent du retard par rapport aux données locales et régionales, notre travail consiste à faire le suivi quotidien de milliers de rapports publiés par les autorités locales”, précisent-ils sur leur site.
  • Le CEPCM et l’OMS, de leur côté, collectent quotidiennement les données en provenance de sources nationales, à une certaine heure. Le Centre européen entre 6 et 10h du matin (heure d’Europe Centrale, UTC+1), et l’OMS à 10h (heure d’été d’Europe Centrale, UTC +2). L’heure à laquelle les pays communiquent sur leurs données journalières, et le délai pris par ces organismes pour leur traitement peuvent donc occasionner des latences de plusieurs heures.

L’heure du bilan

Qu’en conclure ? Nous ne souhaitons pas déprécier certaines bases de données au profit d’autres jugées “meilleures”, mais simplement rappeler que prendre connaissance de la méthodologie propre à chaque source reste primordial. Le travail de collecte, d’agrégation et d’harmonisation des données relatives à la pandémie dépend justement de la manière dont les données sont collectées, traitées, structurées, surtout dans un contexte d’actualisations “en direct” lié à une certaine urgence.

Pour des graphiques (à venir) de comparaison mondiale, notre préférence ira tout de même vers les travaux de la John Hopkins University, qui en plus de fournir un aperçu en temps réel de la crise sanitaire, permettent un accès libre aux données, facilement téléchargeables. La page des contributions associée au Github soulève par ailleurs débats, questionnements et recommandations chez leur communauté d’utilisateurs. Un espace de transparence qui manque à Worldometers.

Notes méthodologiques

  • Les données sont arrêtées au 28 avril pour l’ensemble des bases.
  • La prise en compte des territoires et collectivités d’Outre-mer étant variable d’une base de données à l’autre, nous avons fait le choix de ne pas les inclure lorsqu’ils ne l’étaient pas d’office dans les agrégats nationaux (les territoires concernés : Guyane, Guadeloupe, Martinique, Réunion, Mayotte, Nouvelle Calédonie, Polynésie française, Saint-Barthélémy, Saint Pierre et Miquelon, St Martin, Wallis et Futuna).
  • Dans la base OpenCOVID19-fr, les dates du 13 et 16 mars ne présentent pas de données pour le Ministère de la Santé.

Si vous souhaitez reprendre ces graphiques pour une publication ou si vous souhaitez une mise à jour des données, merci de nous écrire sur hello@wedodata.fr

N’hésitez pas à réagir/commenter/proposer des pistes via Twitter ou par mail.

Pour retrouver :
- l’épisode 1 : Et si on déformait la France… https://medium.com/wedodata/covid-dataviz-1-e77982bcba6

- l’épisode 2 : Et si on faisait une comète… https://medium.com/wedodata/covid-et-data-2-et-si-on-faisait-une-com%C3%A8te-1bf6770c7be3

--

--

Lina Kortobi
Wedodata

Datajournalist @We_do_data. From databases to impactful stories. Programming amateur.