Épidémiologie et mathématiques du Covid-19

Valentin Abadie
Digicare
Published in
5 min readMay 26, 2020

Vous l’aurez compris, la gestion de l’épidémie de COVID-19 a été largement guidée par les prédictions des mathématiciens épidémiologistes. Si vous lisez un peu de littérature scientifique sur le sujet, vous apprendrez vite la base de ce qu’utilisent les mathématiciens pour modéliser les épidémies : les modèles SIR. Rappelons ce dont il s’agit.

1) Le modèle SIR

Considérons une population X isolée, c’est-à-dire qui que personne du reste du monde ne s’y rend, et personne n’en part. Faisons aussi l’hypothèse que chaque habitant de la population X se déplace autant — globalement, tous les habitants se rencontrent de manière aléatoire, aucun habitant ne rencontre un autre en particulier. Evidemment, dans la réalité, ces 2 suppositions sont complètement fausses, mais nous y reviendrons.

Une épidémie se déclare dans la population X. On peut alors séparer les habitants en 3 catégories :

- les individus sains (Sain en anglais) : ce sont les personnes qui n’ont pas encore contracté le virus

- les individus infectés (Infected en anglais) : ce sont les personnes ont contracté le virus et qui peuvent le transmettre

- les individus décédés ou guéris (Removed en anglais) : ce sont les personnes ont contracté le virus, et comme leur nom l’indique, en sont guéries ou décédées et ne peuvent plus transmettre le virus ni le contracter

Voilà les éléments du modèle SIR (pour Sain-Infected-Removed). Le nombre de chaque catégorie d’individus est régi par des équations simples : par exemple, le nombre de nouveaux infectés chaque jour est proportionnel à la fois au nombre d’infectés et de sains la veille : plus il y a d’individus infectés, plus il y a de chances qu’ils en contaminent d’autres, et plus il y a d’individus sains, plus il y aura de personnes susceptibles de se faire contaminer. De même, le nombre d’individus guéris ou décédés chaque jour est proportionnel au nombre d’individus infectés il y a une semaine ou deux. Pour plus de détails, je vous renvoie vers les vidéos disponibles sur Youtube, dont celle de la chaîne El JJ : https://www.youtube.com/watch?v=-2tI3MQFqkI&t=17s . Les résultats de ces modèles ont des allures très similaires à ceux observés dans la réalité :

Cependant, s’ils ont la même allure, ils ne sont pas précis du tout, et on peut bien le comprendre car nous avons fait des hypothèses très simplistes. Je vous rappelle qu’on a dit que la population X était isolée du reste du monde et que les habitants s’y déplaçaient de manière homogène. Il va falloir rentrer dans les détails si l’on veut aller plus loin, et notamment se pencher sur les Réseaux Bayésiens.

2) Les réseaux Bayésiens

Un Réseau Bayésien, c’est un objet mathématique fondamental qui est indispensable à tout statisticien voulant modéliser précisément un phénomène. Remettons en cause tout d’abord la 2ème hypothèse : les habitants ne sont pas dispersés uniformément.

Considérons un habitant A qui interagit souvent avec un habitant B, lui même interagissant souvent avec un habitant C, mais les habitant A et C ne se croisent que très rarement. On a bien remis en question la seconde hypothèse, car sinon le 3 habitants A, B et C auraient interagi de la même façon. Et cela correspond bien plus à la réalité : on peut par exemple considérer que A et B habitent le même foyer, et que C est un collègue de B, ce qui explique que B côtoie beaucoup A et C, mais que ces 2 derniers se voient peu. On peut décrire cette situation par un réseau bayésien à 3 sommets :

Ce réseau bayésien contient les informations suivantes :

- à chaque sommet, on renseigne les informations intrinsèques à chaque habitant A, B et C quant à sa susceptibilité d’être contaminé, c’est-à-dire ses chances que le virus le contamine s’il y est exposé (typiquement un nombre compris entre 0 et 1, 0 pour 0% de chance et 1 pour 100% de chances). De plus, on renseigne dans quelle catégorie est la personne (Sain, Infected ou Removed).

- à chaque lien, on renseigne l’exposition mutuelle des paires d’habitant (encore un fois un nombre 0 et 1). Évidemment, cette information dépend du temps : si par exemple une politique de confinement est mise en place, le lien entre B et C diminuera.

Un fois que l’on a fait ça, on lance l’algorithme qui va prédire l’évolution du virus dans la population — évidemment, en réalité, les réseaux n’ont pas 3 sommets mais bien plus, à tel point qu’on ne les dessine même pas !

Pour remettre en question l’hypothèse 1, on applique le même principe aux villes : on peut imaginer la même situation avec des villes A, B et C. Les informations que l’on renseigne au niveau des sommets ne sont plus les probabilités de contracter la maladie, mais le nombre de personnes Sain, Infected et Removed. Sur les liens, l’information que l’on indique est le nombre de gens transitant entre les villes. Encore une fois, évidemment, ces informations dépendent du temps. Et voilà, il n’y a plus qu’à lancer les simulations pour prédire l’avenir du COVID-19.

Voici par exemple les résultats d’une étude menée en février, dont je vous laisse le lien https://science.sciencemag.org/content/368/6489/395.full, qui a modélisé le monde entier comme un énorme réseau bayésien à 3200 sommets.

Un chose très importante que l’on peut noter, est que ce modèle ne sert pas uniquement à prédire, mais aussi à comprendre la maladie. En faisant coller les résultats des modèles avec les données recensées, on a pu établir le fameux taux de reproductibilité du COVID-19 de 3.57 (chaque personne atteinte contamine 3.57 personnes en moyenne). On a pu ensuite étudier l’influence du port de masques, du confinement, des gestes barrières… sur ce taux de reproductibilité.

À bientôt !

--

--

Valentin Abadie
Digicare
Editor for

Student in Data Science at ENS Paris-Saclay, passionated with mathematics and their applications, especially in health science.