Covid-19 et données mondiales : les 3 questions à se poser

Alexandre Lewandowski
SCIAM
Published in
8 min readApr 1, 2020
Image par Pete Linforth de Pixabay

La coordination internationale fait face à la complexité du défi posé par Covid-19. La gestion de la pandémie met en évidence plusieurs facteurs de succès et de résilience de nos sociétés tels que la vie politique, le système de santé, l’accès aux premières nécessités. Dans ce contexte, les données relatives à Covid-19 constituent un actif stratégique répondant à trois objectifs majeurs : mieux évaluer la situation à un instant t, aider à la décision, agir de façon plus coordonnée à l’échelle internationale.

Pour autant, contrairement aux idées reçues, les données ne sont pas une “ressource” abondante. Elles sont plutôt composées d’une grande variété d’informations rares, souvent uniques, capturées à partir de petits bouts à agréger et exploitables grâce à une architecture informatique respectant des principes clé (égalité des données, liquidité, sécurité).

L’hétérogénéité des données dont nous disposons freine, en partie, l’efficacité de l’effort mondial (la moitié de l’humanité est actuellement confinée). Pour lever ces freins, il convient de répondre aux trois questions suivantes : quelles sources d’information utiliser (les données sont-elles fiables) ? Quels indicateurs construire et suivre ? Enfin, quelles représentations adopter pour minimiser les biais de compréhension ?

Quelles sources d’information utiliser ?

De nombreux organismes collectent et partagent des données sur Covid-19, comme “l’Organisation Mondiale de la Santé” (OMS), le “European Centre for Disease Prevention and Control” (ECDC) pour l’Union Européenne, son équivalent aux Etats-Unis, le “Center for Disease Control and Prevention” (CDC.GOV) ou encore le “Center for Systems Science and Engineering” de la Johns Hopkins University (JHU).

Entre le nombre de sources ci-dessus et les très nombreuses autres existantes, il y a de quoi s’y perdre. Avant de commencer toute analyse, il nous semble nécessaire d’évaluer d’abord la fiabilité des données. Pour ce faire, nous proposons d’utiliser 6 critères ; chacun étant qualifié par un indice de confiance.

Image par Gerd Altmann de Pixabay

1) La complétude

Pour tracker la pandémie à l’échelle mondiale, les données doivent remonter aux premiers cas détectés et couvrir l’ensemble des pays.

D’autant plus que des enjeux politiques peuvent aussi pousser certains Etats à filtrer des données. Ainsi, depuis quelques jours, la communauté internationale commence à s’interroger sur le nombre officiel de morts liés au coronavirus en Chine. D’autres Etats, comme la France par exemple, peuvent être confrontés à des limites “techniques”.

2) La validité technique

Les données doivent être disponibles dans un format exploitable. La structure des ces dernières doit être valide (par exemple toutes les dates ont un format identique et cohérent). Les fichiers, API, base de données sont de bons choix alors que les vidéos, les images ou le son s’avèrent moins facile à interpréter. A titre d’exemple CDC.GOV fournit beaucoup d’informations intéressantes sur son site web, mais difficilement exploitables directement. A contrario, les fichiers CSV fournis par JHU sont facilement utilisables, tandis qu’ECDC fournit même le code aux développeurs.

3) La fraîcheur

Une donnée fraîche et mise à jour régulièrement est indispensable pour prendre des décisions éclairées. A défaut, lorsque la mise à disposition de la donnée est décalée dans le temps, il est nécessaire d’évaluer le risque à l’utiliser. La fréquence de mise à jour doit donc être explicitée. Ainsi, JHU se différencie en proposant des mises à jours en “intraday”, c’est à dire plusieurs fois par jour, tandis que l’OMS et ECDC publient des données avec potentiellement 24 heures de retard, autrement dit à “J-1”.

4) L’exactitude

La donnée doit être représentative de la réalité et clairement explicitée. A titre d’exemple, dans ses directives de remontée d’information, l’OMS définit explicitement un cas confirmé (une personne malade ayant eu confirmation du diagnostic par un test en laboratoire) contrairement à l’ECDC qui se base sur les définitions établies par chaque pays. D’autre part, la stratégie de test semble influer sur l’exactitude des chiffres, or cette stratégie peut varier selon les pays. Autre exemple, les tests post mortem de détection de Covid-19 ne semblent pas être généralisés en Allemagne, contrairement à l’Italie.

5) La cohérence

En croisant plusieurs sources, les données ne doivent pas présenter d’anomalie. Agréger des données issues de sources n’évaluant pas la même chose, ou pas au même moment, peut rendre ces données inconsistantes. Si l’OMS s’appuie sur un réseau d’institutions locales pour remonter et agréger les données, JHU les complète par d’autres sources d’information de toute sorte (dont Twitter), ce qui fait porter un risque en terme de cohérence.

6) L’unicité

La même donnée ne doit pas apparaître plusieurs fois. Là encore il s’agit d’un problème d’assemblage de sources. A priori les institutions fournissant les données se chargent de ce travail. Cependant nous ne disposons pas toujours de garantie technique.

A titre d’exemple, l’OMS publie depuis le 21 Janvier 2020, un rapport quotidien de la propagation de la pandémie de Covid-19 présentant des indicateurs par zones géographiques, par pays, Etat ou territoire : nombre total de cas confirmés, nombre de nouveaux cas confirmés, nombre total de décès, nombre de nouveau décès, type de transmission, nombre de jours depuis le dernier cas confirmé reporté.

Tableau de situation de la maladie du COVID-19 publié par l’OMS https://experience.arcgis.com/experience/685d0ace521648f8a5beeeee1b9125cd

Elle se base sur des institutions “source” locales et consultables sur la base mondiale des centres collaborateurs de l’OMS.

Malheureusement, depuis le 18 mars, les données de l’OMS liée à l’évolution de la pandémie dans le temps sont devenues moins fiables. En effet, suite à la publication du rapport de situation 57, l’OMS a déplacé l’heure limite de notification de 9 h CET à 0 h CET. La comparabilité des données entre les rapports quotidiens 57 et 58 s’en est trouvée compromise (du fait du chevauchement des rapports). Par ailleurs, des équipes de statisticiens ont identifié des erreurs dans les rapports publiés quotidiennement. Si ces dernières ont toutes été documentées, force est de constater que l’OMS les a soit corrigées à postériori sans avis public, soit laissées telles quelles.

Quels indicateurs construire et suivre ?

Croiser les données brutes liées à Covid-19 avec d’autres sources de données nous apporte un nouveau regard sur la situation à laquelle chaque pays fait face, ce qui peut induire des décisions différentes en terme de coopération internationale.

La Chine, avec ses 9,6 million de Km² et 1,4 milliard d’habitants, est un pays plus grand et plus peuplé que le Royaume-Uni (242 495 Km² pour 66 millions d’habitants). Est-il pertinent de comparer le nombre de malades en valeur absolue entre les deux pays ? A priori non.

Pour cerner l’ampleur de Covid-19, nous pouvons par exemple croiser le nombre de contaminés avec le nombre d’habitants du pays. Des étudiants du “Sapporo University Medical School of Medicine” proposent ainsi un graphe du nombre de cas confirmés par million d’habitants au cours du temps.

https://web.sapmed.ac.jp/canmol/coronavirus/index_e.html

Selon ce croisement de données, le Royaume-Uni semble faire face à une crise sanitaire de plus grande criticité que la Chine.

Prenons un nouvel axe : la surface des pays. Comparons le Royaume-Uni à des régions chinoises de taille équivalente. Cet indicateur est fourni par le tableau de situation proposé par l’OMS. En Chine, le virus est majoritairement concentré dans la province du Hubei qui recense plus de 80% des cas du pays. La population du Hubei atteint presque 60 millions d’habitants (elle est donc comparable à celle du Royaume-Uni) et compte environ 1130 cas par million d’habitants. Ce chiffre est supérieur à celui du Royaume-Uni.

Les conclusions de ces deux analyses sont contradictoires.

Cette “démonstration par l’absurde” montre l’importance des choix établis lors de la construction du modèle décisionnel fondé sur les données. Ce sont les indicateurs dans leur ensemble qu’il faut considérer pour prendre une décision (dans notre exemple nous avons aussi constaté que la maladie est maîtrisée en Chine).

Quelles représentations adopter pour minimiser les biais ?

Si la donnée est largement accessible, il n’en demeure pas moins qu’elle doit surtout être intelligible. La restitution de l’information joue un rôle clé dans notre perception de la situation.

Le système de cognition humain est particulièrement adapté aux données visuelles. C’est pour cette raison que le CSSE at JHU choisit de restituer les données liées à la pandémie sur une carte. L’assimilation de sa propagation dans le monde nous est plus facile. Cependant, gare à l’accommodation que ces visuels engendrent.

Bien que les techniques de restitution visuelle nous facilitent la compréhension des données que nous collectons, elles peuvent influer sur notre compréhension de la réalité et nous faire prendre de mauvaises décisions.

Sur les cartes ci-dessous, les points rouges représentent le cumul de personnes contaminées confirmées ; les points jaunes représentent le nombre de cas actifs (personnes contaminées, ni décédées ni guéries).

Carte CSSE at JHU du culmul des cas de Covid-19 confirmés à gauche et celle des cas actifs de Covid-19 à droite.

Imaginez si vous ne pouviez soigner les malades que d’un seul pays et que vous deviez simultanément maximiser le nombre de personnes à soigner. Choisiriez-vous la Chine ou le Royaume-Uni?

La représentation via des points rouge semblent montrer que la situation est pire en Chine tandis que l’autre représentation ne nous permet pas vraiment de statuer. A la lecture de ces deux cartes, si nous devions choisir, nous opterions pour la Chine.

Or, la Chine recense environ 81 000 cas cumulés là où le Royaume-Uni en recense environ 15 000. Mais nous comptons 13 649 cas actifs au Royaume-Uni contre seulement 3 881 pour la Chine soit presque 4 fois moins. Notre décision serait donc catastrophique.

Ce problème est imputable à la légende. Ce format de restitution permet d’identifier les régions du monde où la maladie est présente mais ne permet pas de comparer clairement la situation des pays. Notre perception s’en trouve biaisée. Dans ce cas se référer aux données brutes est plus pertinent.

Et en France ? Plusieurs sources sont disponibles en France comme le tableau d’information générale publié par “Santé publique de France” qui est complété avec le temps. Il existe aussi data.gouv.fr qui propose les données en libre accès et qui réutilise des données de Covid-19. D’autres sources de données sont manquantes ou peu fiables ce que nous expliciterons en détail dans un prochain article.

Si de nombreux indicateurs existent, de nouveaux restent à construire pour mieux cerner la situation et décider d’actions futures cohérentes. Si des restitutions existent déjà, elles pourraient également être affinées, via des indicateurs par agglomération par exemple, pour préparer au mieux la sortie du confinement en détectant les rebonds épidémiques à petite échelle.

--

--