Covid et Data #4 [bis] : Et si on se concentrait sur les jours…

Lina Kortobi
Wedodata
Published in
10 min readMay 26, 2020

Depuis le début de cette épidémie, les graphiques ont envahi les écrans. Face à cette profusion, chez Wedodata, on a souhaité prendre du recul, réfléchir à l’impact de ces visualisations sur des sujets de santé publique, tester des formats. On a décidé de vous faire partager les coulisses de ces recherches. Episode#4 [mis à jour le 30 juillet]

Article publié initialement le 26 mai 2020 et mis à jour le 31 juillet 2020

Note : Toutes nos captures d’écran renvoient vers leur version dynamique. Les classements mentionnés en corps d’article sont regroupés sur mon profil Tableau Public, plateforme de visualisation de données interactives.

Dans tous les pays du monde, chaque soir, un officiel égrène le bilan de la journée qui vient de s’écouler avec son nombre d’hospitalisations, d’entrées en réanimations, de guérisons, mais aussi de morts. La mesure du nombre de décès quotidiens a plusieurs fois été commentée pour en souligner les limites, comme dans cette synthèse du journal britannique, The Guardian, « Coronavirus statistics: what can we trust and what should we ignore? » .

Mais cet indicateur témoigne tout de même d’une intensité de l’épidémie très variable d’un pays à l’autre. Il nous a semblé pertinent d’isoler ces jours pour faire de chacun d’eux une unité de mesure en soi. La visualisation de données n’est en effet pas qu’une question de représentation graphique. Elle est surtout le développement d’un angle éditorial. Nous souhaitions donc approfondir celui, inédit, du classement des jours comptabilisant le plus grand nombre de décès, toutes dates et tous pays confondus.

Pour cet article, nous avons adopté les données de la John Hopkins University comme valeurs de référence (nous vous expliquions pourquoi dans l’#épisode 3). Depuis le début de la pandémie, l’université américaine livre pour chaque pays un total quotidien de décès cumulés. Le total à date t, duquel est déduit le total de la veille permet donc de calculer quotidiennement, pour chaque pays, le nombre de décès liés au Covid.

Que donnerait le classement des bilans quotidiens les plus meurtriers dans le monde ? Pour commencer, cette liste de pays classés du 1er au 712e rang, selon leur nombre de morts journalières. Pour la visualisation, nous avons choisi un “lollipop chart” dont voici un aperçu :

Le “lollipop chart” remplace judicieusement le diagramme en bâton lorsque les valeurs sont multiples et rapprochées. Il évite ainsi de trop tasser les données comparées. Ce choix suppose néanmoins de faire “scroller” le lecteur un certain nombre de fois avant d’atteindre le bas du classement. Nous souhaitions trouver une visualisation plus satisfaisante, qui permette de présenter un grand nombre de valeurs en peu d’espace, de telle sorte que l’oeil puisse appréhender toutes les données en une seule fois. Le classement a d’abord été restreint aux 100 journées affichant les plus lourds bilans, puis agencé sous forme d’une grille de bulles de tailles différentes, proportionnelles à leur valeur. Voici donc ce que donne la vision compactée du top 100 (à la date du 31 juillet 2020) :

Les nouveaux venus de ce classement sont le Brésil, le Pérou et l’Inde. L’Italie, précédemment en 76e position, disparait du top 100. Avec à ce jour plus de 90000 morts, le Brésil, sévèrement touché par la crise sanitaire, est le deuxième pays comptant le plus de décès liés au Covid, après les États-Unis.

C’est donc sans grand étonnement que nous retrouvons les États-Unis dominants en tête de liste. Selon les bilans officiels, le pays comptabilise près de 20% des morts dans le monde. Mais ce choix de classement rend encore plus visible leur crise sanitaire : le pays occupe à lui seul 58 places de ce top 100. Le 17 avril reste la journée la plus meurtrière sur leur sol avec 2 614 décès en 24h.

Une comptabilisation nationale peu adaptée au temps réel

Le plus surprenant reste le cas péruvien : 3 887 décès le 23 juillet. Il est vrai que le pays est le troisième le plus touché d’Amérique latine, après le Brésil et le Mexique. Mais le Pérou, en plus d’arriver en tête, creuse un énorme écart journalier avec le bilan suivant : 1 273 morts de plus que les États-Unis. Que penser de ce chiffre ?

Le 22 juillet, le ministre de la Santé péruvien, Pilar Mazzetti, reconnaît un écart dans le décompte du nombre de décès en juin. « Avec cela, le vide que nous avions en matière d’information est couvert jusqu’en juin », a-t-il déclaré.
3 688 nouveaux cas se retrouvent alors soudainement ajoutés au bilan du lendemain. D’où l’explosion constatée au 23 juillet.

Autre cas surprenant : la France est le premier pays européen à figurer sur la liste. Elle occupe les 45e (1438 morts le 15 avril), 47e (1417 le 7 avril) et 52e (1341 victimes le 9 avril) places. Et ceci loin devant le Royaume-Uni et l’Italie, qui pourtant affichaient des bilans sanitaires plus importants dans la période. Pourquoi une remontée si haut dans le classement ? En enquêtant sur la manière dont ont été comptabilisés les décès à ces dates, il s’est avéré, comme au Pérou, que les trois journées citées ont souffert d’un rattrapage des chiffres du week-end ou d’un bug technique :

  • le 15 avril, Jérôme Salomon, directeur général de Santé publique France, signale que tous les décès n’ont pas eu lieu en 24h mais sont une réévaluation des chiffres du weekend.
  • le 7 avril, 820 décès supplémentaires sont comptabilisés en Ehpad, un chiffre élevé “dû au fait que nous sortons d’un week-end et à un retard de saisie”.
  • le 9 avril, un incident technique chez Santé publique France comptabilise 48 heures de décès en Ehpad.

La France est par ailleurs particulièrement sujet aux réajustements statistiques : les décomptes en Ehpad sont irréguliers ou imprécis, les morts à domicile non comptabilisées — alors qu’en temps normal, elles représenteraient à elles-seules 24% des lieux de décès. Rappelons également la prise en compte tardive (le 1er avril) des Ehpad et établissements médico-sociaux.

C’est que la comptabilisation de la crise sanitaire hérite d’une mécanique peu adaptée à la remontée d’information dans l’urgence, comme le documente cet excellent article du Muséum d’Histoire naturelle. Déjà en 2003, la statistique nationale se retrouvait en difficulté face au décompte des victimes de la canicule du mois d’août, qui a entraîné en dix jours une surmortalité de près de 15 000 décès. Le chiffre n’a été connu que longtemps après. Cet épisode a fait prendre conscience de la nécessité d’adopter un système efficace pour la remontée d’informations en temps réel. Une “certification électronique des décès” a alors été mise en place pour faire parvenir à l’Institut national de la santé et de la recherche médicale (Inserm) les causes de mortalité de manière immédiate. Mais encore aujourd’hui, la procédure reste peu appliquée par les médecins.

Notre classement, pour la France aussi bien que pour le reste des pays, pâtit donc de ces imperfections statistiques. Il méritera sûrement d’être réactualisé si les institutions statistiques nationales rectifient à terme ces décomptes.

Avril, un mois record

Avec ces mêmes données, nous avons ensuite tenté d’explorer une nouvelle piste, celles des dates. Que donnerait la visualisation précédente reclassée par ordre chronologique ? Le graphique suivant :

Ce classement met l’accent sur les mois comptant le plus grand nombre de jours records. Avril domine : il concentre 36 des 100 bilans nationaux les plus meurtriers. Mai et juillet en comptabilisent 23. Le mois de juin seulement 17. Ces résultats témoignent de l’efficacité des politiques de confinement partout dans le monde avant une remontée à la hausse du nombre de cas ces dernières semaines post-déconfinement.

Les 51 États américains en lieu et place de leur pays

Les États-Unis occupant à eux-seuls près d’un tiers de la répartition, nous avons tenté une autre approche, celle de considérer chaque État américain (au nombre de 51, district de Columbia compris) comme un pays à part entière. Dans cette version de la distribution, les États-Unis ne forment donc plus un pays d’un seul bloc, mais 51 différents.

Les États-Unis disparaissant, nous retrouvons le Pérou toujours en tête, suivi de l’Inde et du Brésil, toujours aussi dominant. La France reste le pays européen le plus touché (lire l’analyse du cas français un peu plus haut dans l’article). Mais la nouveauté de ce top 100 est l’apparition du New Jersey en 3e position (1 796 morts le 25 avril). L’État, limitrophe de New York, devance ainsi l’ancien épicentre de l’épidémie, sévèrement touché en avril.

New York reste en effet le deuxième État américain le plus touché, avec 10 des 100 premières dates du classement mondial. C’est qu’il concentrait il y a deux mois près d’un tiers des victimes du Covid dans le pays, au point que le New York Magazine qualifiait la ville de “capitale mondiale de l’épidémie”. Les raisons de ce lourd bilan sont encore difficile à faire émerger. Ses 11 000 habitants au kilomètre carré (pour un total de 8 millions de personnes) font de New York la ville la plus densément peuplée des États-Unis. Ceci sans compter les quelques 60 millions de touristes annuels, les transports publics et les avenues commerçantes fortement fréquentés. Mais d’autres métropoles densément peuplées comme Tokyo, Seoul ou Taipei ont pourtant été plus épargnées. Comment expliquer que New York ait fait figure d’épicentre épidémique ? Certains le justifient par la distribution de la pyramide des âges dans la ville, qui regroupe les plus âgés, donc les plus vulnérables, aux mêmes endroits. D’autres par un confinement trop tardif, le 22 mars.

Un retour au nombre de décès par habitant

Traiter des questions démographiques revient à poser l’éternelle question du ratio : doit-on et peut-on rapporter la donnée étudiée au total de la population ? John Burn-Murdoch, datajournaliste au “Financial Times”, rappelle qu’un ratio n’est pas l’indicateur adéquat pour rendre compte de l’évolution d’un phénomène épidémique — qui de toute façon se propage à rythme égal, quelle que soit la taille du pays. Mais ne se focaliser que sur les chiffres bruts de décès fait courir le risque de mal appréhender les écarts de situation entre États plus ou moins peuplés.

Nous avons donc réordonnancé notre classement (une quatrième fois n’est pas de trop) en rapportant le nombre de morts pour 100 000 habitants.

Voyant que cette version faisait remonter les petits États — notamment insulaires, nous avons fait le choix de filtrer notre périmètre aux pays de plus de 100 000 habitants. Cette dernière distribution met en lumière 13 États américains, dont le New Jersey, Delaware et le Connecticut.

L’effet domino de la crise sanitaire se fait ressentir, puisque les États du New Jersey et de Delaware sont géographiquement situés au sud de New York sur la côte Est américaine, premier épicentre épidémique américain comme expliqué plus haut.

Après le New Jersey et Delaware arrive… le Connecticut. Son apparition dans cette dernière version du classement initialement publié le 25 mai nous avait amené à explorer son cas. Entre le 22 et le 29 avril, l’État (par ailleurs densément peuplé) comptabilise près de 90% de ses décès en maison de retraite. Comme pour New York, il est probable qu’il ait présenté plusieurs foyers de populations très vulnérables au virus.

Et alors que le commissaire au développement économique et communautaire envisage des reconfinements localisés en cas d’augmentation graduelle de nombre de cas, son gouverneur reconnait que les données de décès sont « fragmentaires et incomplètes ». De quoi prévoir une réévaluation des ces chiffres à l’avenir, au Connecticut comme ailleurs dans le monde.

Notes méthodologiques

  • Données arrêtées au 30 juillet.
  • Il est arrivé qu’à certaines dates et pour certains pays, le calcul du nombre de décès quotidiens soit négatif (le 19 avril en France, la valeur est à -217 par exemple). Ces incohérences sont liées à des anomalies présentes dans les données de la John Hopkins University, où le total cumulé des décès un certain jour peut être inférieur à celui du jour qui le précède. Le centre de recherche de l’université s’efforce de les corriger progressivement. Ces valeurs négatives ont été exclues de nos classements.
  • Certains États indépendants (Taiwan, Samoa), les territoires non incorporés et organisés américains (Guam, Porto Rico, les îles Mariannes du Nord et les îles Vierges des États-Unis) et les navires de croisière suivants (Diamond Princess, Grand Princess, MS Zandaam) n’ont pas été inclus dans les classements.

Si vous souhaitez reprendre ces graphiques pour une publication ou si vous souhaitez une mise à jour des données, merci de nous écrire sur hello@wedodata.fr

N’hésitez pas à réagir/commenter/proposer des pistes via Twitter ou par mail.

Pour retrouver :
- l’épisode 1 : Et si on déformait la France…

- l’épisode 2 : Et si on faisait une comète…

- l’épisode 3 : Et si on se plongeait dans les bases mondiales…

- l’épisode 5 : Et si on dessinait une virgule…

--

--

Lina Kortobi
Wedodata

Datajournalist @We_do_data. From databases to impactful stories. Programming amateur.