Coronavirus: ¿podría haber 100 veces más contagiados de los reportados?

Diferentes algoritmos predictivos apoyados con datos internacionales pretenden arrojar luz a esta pregunta en la CCAA de Madrid. Análisis a fecha 17 de Marzo.

Carlos Bort
13 min readMar 17, 2020

Actualización: siguiente artículo disponible: “Coronavirus: algoritmos para dimensionar los recursos sanitarios. Estamos a tiempo.”

Nadie sabe el número de contagiados real. Nadie. Salen noticias de políticos y personalidades infectadas, casos cercanos tuyos lo están, incluso tú puedes estar contagiado y no tener síntomas aún.

El objetivo de este artículo es tratar de estimar el número real de contagiados para la CCAA de Madrid. No soy médico, ni biosanitario, mi profesión es la ciencia de datos. Ahora más que nunca los datos son clave. Mi meta es ayudar con mi análisis a concienciar a los ciudadanos de la enfermedad y … #QuedateEnCasa.

Cuando termines de leer este artículo sabrás que:

  • Si sales a la calle y te cruzas con 8 personas, una puede tener el virus.
  • Puede haber entre 200.000 y 700.000 infectados en la comunidad de Madrid.
  • La evolución de los contagios era cuasi-imposible de predecir por la falta de síntomas durante el periodo de incubación. Los eventos multitudinarios que han tenido lugar las pasadas semanas, han permitido que la infección se expanda a un ritmo alarmante.

¿Por qué puede ser útil saber el número de contagiados real?

  • Estimar si los hospitales darán abasto cuando los contagiados tengan síntomas severos.
  • Si no es así, y el sistema pudiera colapsar, anticipar medidas que corrijan este escenario y no haya que decidir qué pacientes se ingresan.
  • Cuantificar la efectividad de las políticas de aislamiento.
  • Saber cuándo la población podrá volver a salir a la calle.

Y evitar declaraciones como estas del alcalde de Bérgamo:

Traducción:
Incluso los datos de los pacientes de la UCI pueden ser engañosos. Parece que el crecimiento se está desacelerando, en cambio es solo porque no hay más puestos. (Se agregan pocos con gran esfuerzo). Los pacientes que no pueden ser tratados se dejan morir.

⚠️ ¡Ministerio de Sanidad, necesitamos más datos! En el Estado de Alarma en el que estamos es vital tener más información de los infectados y fallecidos: edades, sexo, comunidad y demás información. Necesitamos esos datos para entender mejor la enfermedad y su propagación.

¿Dónde estamos?

Estamos en pandemia. Lo que pareció ser una gripe mundana ha llegado a nuestro territorio con un impacto impredecible. Los casos y su gravedad van incrementando a una velocidad no esperada. Cada día en las noticias sale el número de contagiados. ¿Cómo de real es este número? Hasta la fecha se han realizado tan solo 30.000 tests con alrededor de 11.000 positivos e incluso desde la administración reconocen que no son capaces de hacer suficientes tests.

El principal problema de las pandemias es que crecen exponencialmente. Para entender que significa esto, pensemos en que una persona contagia a dos o más. Esas dos a otras dos. Y esas cuatro nuevas a ocho. Y así sucesivamente. Este razonamiento simple se entiende con el siguiente gráfico:

Fuente: Elaboración propia

El crecimiento exponencial ha pasado de 1 persona el día 0 a 32.768 personas en 15 días.

La enfermedad y el tiempo

El crecimiento exponencial es traicionero. Es difícil de percibir y muchas veces cuando alcanzas a comprenderlo ya es demasiado tarde. Con el COVID-19, este fenómeno es mucho peor. En el período de incubación del virus no mostramos síntomas, hay gente que aún teniendo la enfermedad no los desarrolla pero aún así contagia a los demás. Esto, con el paso del tiempo, ha permitido unas condiciones en las que se han podido contagiar muchas personas. El virus era casi invisible.

Para poder entender el tiempo que la enfermedad ha sido invisible, y sentar hipótesis, utilizaremos las siguientes fuentes: MIDAS y benchmark de papers científicos. Con ellos en mente desarrollamos la siguiente visualización:

Fuente: Elaboración propia, fuente del dato link, pequeña inspiración de este paper

Imaginemos una persona sana que contrae la enfermedad:

  • Durante 5 días está incubándola y es probable que contagie. Al final del período de incubación puede mostrar o no síntomas.
  • Posteriormente la persona tiene la enfermedad. Las estimaciones nos dicen que una persona con síntomas a ser diagnosticada tarda 5 días. En naranja vemos que sería un total de 10 días.
  • El tiempo medio de fallecimiento según diferentes estudios es de 17 días después de tener la enfermedad. Incluyendo los 5 de incubación hacen un total de 22 días, marcado en rojo.
  • Por último, desde la aparición de los síntomas a la recuperación suelen ser 22 días, lo que hacen total de, en verde, 27 días.
  • Me encantaría poder estimar cada probabilidad de desarrollar o no síntomas, Ministerio de Salud, ¡necesitamos Datos!

Como podemos ver, durante ese periodo inicial de 5 a 10 días, la enfermedad pasa desapercibida. Pasa desapercibida pero se va multiplicando exponencialmente sin que nos demos cuenta. Las medidas de contención tardan, parece que el número de contagiados es leve, pero la mayoría de contagiados está por llegar.

El siguiente gráfico con datos reales lo muestra perfectamente:

Fuente: Journal of Medical Association basado en los casos del Chinese Center for Disease Control and Prevention (CDC)

Este gráfico es espeluznante, ¿por qué? Vemos un total de 44.672 enfermos diagnosticados por coronavirus del Centro Chino de Control de enfermedades. Cada paciente está representado en dos barras, una barra azul y otros en naranja:

  • En naranja tenemos el número de casos que han sido diagnosticados y confirmados por test. Este sería el número que dice actualmente el Ministerio. Una persona va al médico y registran que está enferma. Se aprecia el crecimiento exponencial desde el 23 de Enero.
  • En azul tenemos la fecha en la que los pacientes diagnosticados especificaron que habían comenzado los síntomas. Esa persona cuando fue al médico se le pregunta hace cuánto empezó a tener síntomas y se anota. Se aprecia el crecimiento exponencial desde el 12 de Enero.

Si nos fijamos en la curva azul, el dato de los diagnosticados «reales», fue creciendo de manera exponencial. Pongo «reales» entre comillas, porque otros podrían tener la enfermedad y no ir al médico o no mostrar síntomas.

Si prestamos especial atención al 23 de Enero, cuando se cerró la ciudad de Wuhan había cerca de 400 casos diagnosticados (dato que sale en TV). Lo más significativo y cómo se subraya también en este video de Khan Academy, es que Wuhan cerró con 400 diagnosticados pero eran un total de casi 12.000 casos reales, 30 veces más de lo que se había contabilizado. Adjunto captura a continuación:

Fuente: Captura de pantalla del siguiente video.

Si ponemos el cierre de las ciudades de España el lunes 16 de Marzo, los casos confirmados fueron de 9.191. Haciendo una analogía con el caso de Wuhan tendríamos 270.000 casos reales. Pensemos en todos los eventos sociales de semanas anteriores y la forma de vida de los españoles. La pregunta ahora es, ¿cuántos casos reales puede haber en España?

España / CCAA — Madrid

Y en España, ¿cómo ha evolucionado la curva de detectados (naranja) y qué medidas ha tomado el gobierno? Analizaremos los datos históricos del Ministerio de Sanidad, (fuente datadista), centrados en la comunidad de Madrid:

Fuente: gráfica en acumulada del número total de contagiados

Este gráfico, a diferencia del anterior de CDC, es sobre los contagiados totales por día. Se puede ver:

  1. El crecimiento de los contagiados crece de manera exponencial. En 6 días hemos multiplicado casi por 10 los contagiados, de 49 el 3 de marzo a 469 el 10 de marzo. Posteriormente volvimos a multiplicar por 10, pasando de 469 a 4.871 (del 10 al 17 de marzo), en casi 7 días.
  2. Por parte del ministerio faltaban los datos durante el 7 y 8 de marzo. Dado que no se publicó ningún informe el fin de semana. Ahora ya los han publicado, ¡gracias!
  3. La tendencia de crecimiento no parece revocar.

Tenemos que ser conscientes de los efectos que han ayudado a propragar el virus antes del acertado cierre de escuelas en Madrid y el siguiente estado de alarma. Eventos antes del 11 de marzo:

  • Jornada de liga con estadios abarrotados.
  • 8M en las diferentes ciudades con más de 120.000 asistentes en Madrid.
  • Diferentes actos políticos e incluyendo un transporte público donde en horas de máxima afluencia se concentran muchas personas.

Durante estos días que la enfermedad era casi invisible, nos reunimos, hicimos vida normal. Estos actos impulsados por el desconocimiento durante la incubación, hicieron que la enfermedad se multiplicara y se complicasen significativamente el sistema sanitario y los escenarios estadísticos a posteriori.

Para calcular los casos reales he utilizado 3 métodos:

  1. Extrapolación de contagiados. Calcularemos en base a los contagiados actuales y nos desplazaremos en el tiempo (modelo paramétrico de ecuaciones).
  2. Extrapolación de fallecidos. Aproximaremos desde el dato «más fiable»: el número de fallecidos por coronavirus (reglas de tres con los datos recogidos).
  3. SIR. Modelo ecuaciones diferenciales de propagación de infecciones (famoso gráfico de «aplana la curva»).

Extrapolación de contagio

El objetivo de esta metodología es poder modelizar los contagios diagnosticados y establecer una fórmula que los entienda. Una vez creada dicha formula podemos hacer dos cosas:

  1. Predicir cómo evolucionarán los contagiados en la en la próxima semana.
  2. Desplazar la predicción siete días antes gracias a que sabemos que hay una diferencia de tiempo entre cuando una persona es contagiada y diagnosticada.

Predicciones de la semana que viene

Para ello hemos utilizado dos tipos de modelos matemáticos, uno exponencial y otro polinómico. Para más detalle matemático, podéis ver mi código en Github.

En azul tenemos los datos reales del ministerio y en rojo tenemos las predicciones de los dos diferentes modelos. Podemos establecer que para el 18 de marzo, un número razonable de contagiados en Madrid sería entre 7.000 y 9.000 contagiados:

Fuente: Elaboración propia, modelo ajustado desde los 400 casos en la CCAA de Madrid. Motivo por representatividad y falta de datos

Ha habido diferentes efectos en la sociedad española que pueden cambiar estas predicciones: el posible aumento de tests, la migración de madrileños a sus casas de veraneo y la recolección del dato en la comunidad.

Desplazamiento de la fórmula

Una vez hemos ajustado un modelo matemático que captura la esencia de la curva de los contagiados de Madrid facilitada por el Ministerio de Salud, nos movemos atrás en el tiempo. Ejemplo:

  • El primer contagiado detectado fue el 27 de febrero, esto quiere decir que ya había infectados mucho antes. Entre los datos del Journal de Medicina y los recopilados anteriormente, para esta extrapolación nos situaremos siete días atrás en el tiempo y veremos su evolución.

Nos colocamos en el día 20 de febrero y calculamos la cantidad de contagiados totales (usamos los colores del paper anterior, naranja para los casos detectados y azul para los totales estimados. Como la propagación es exponencial, tendríamos 461.984 contagiados en Madrid.

Fuente: Elaboración propia, modelo polinómico extrapolado desde el 20 de febrero al 17 de marzo

⚠️ Este es un ejercicio de modelaje, está realizado con los datos del Ministerio, agregados y con problemas de recogida. Es una estimación, luego ha de utilizarse más como un ejercicio de la magnitud que puede tener más valor que el valor exacto.

Extrapolación de fallecidos

En todos los diferentes estados de la enfermedad, hay uno en que el error de medición es mínimo, el fallecimiento. Por muy tétrico que suene es real. Como dato tiene un problema, su número es mucho menor y su distancia al primer contagio también. Los fallecidos en la comunidad de Madrid se pueden ver en el siguiente gráfico:

Fuente: gráfica en acumulada del número total de contagiados

Como analizamos en el gráficos de contagios:

  • Multiplicamos por 10 los fallecidos totales, siendo 2 fallecidos el 6 de marzo a 21 fallecidos 10 de marzo
  • Volvimos a multiplicar por 10 de 21 fallecidos a 213 fallecidos, en las fechas del 10 de marzo al 16 de marzo

Tengamos en cuenta que los valores por fallecimiento, al ser desplazados unos 22 días de media desde el contagio, son valores bajos pero sensibles al incremento.

El método que explicaré a continuación es el que utiliza Tomas Pueyo en su artículo. La idea es la siguiente y está muy bien explicada en el video de Khan Academy:

  • Sabemos que una persona fallecida por COVID-19, ha sido infectada antes.
  • Imaginemos que para esa persona, sabemos el porcentaje de mortalidad de la enfermedad es de un 1%. Con este porcentaje podemos estimar cuánta gente estaba infectada conjuntamente con el fallecido. El 5 de marzo falleció una persona por coronavirus, pero había 100 infectados.
  • Para saber en que momento del tiempo había 100 infectados, tenemos que estimar el tiempo que una persona muestra síntomas y su fallecimiento. Lo denominamos días de enfermedad, 17 días.
  • Si desde ese día extrapolamos hacia adelante la propagación de la enfermedad, podríamos estimar el número de contagiados hoy. En este caso lo aproximamos por cuantos días tardan en doblarse los casos. Diferentes estimaciones van de 6 días de media a 4 días. De esa persona fallecida, extrapolamos 100 infectados hace 17 días se han ido propagando hasta 2004 en el momento de fallecimiento de esa persona.

Con el este método tendríamos, 711.513 contagiados en la comunidad de Madrid, en comparación a los 461.984 anteriormente estimados. Veamos gráficamente el resultado:

Fuente: Elaboración propia, extrapolación por número de fallecimientos

⚠️ Tenemos que tener en cuenta las hipótesis de esta regla de tres. Las medidas que adoptamos como país pudieron ayudar mucho más a la propagación del virus. Es una estimación y tenemos que tener en cuenta los sesgos que pueden tener los datos del Ministerio. Las hipótesis han sido, 1% mortalidad, 17 días de infección a muerte y doblan casos cada 4 días.

Hay países que tienen una mortalidad muy alta, del 5%. Pensemos que la mortalidad es el ratio fallecimientos entre contagiados. Cuando el número de contagios está mal calculado a la baja, darán estimaciones superiores.

SIR model

El modelo SIR, es uno de los modelos más utilizados para modelizar matemáticamente enfermedades infecciosas. La idea principal es que una persona puede transitar por tres estados: Susceptible, Infeccioso y Recuperado, SIR.

Fuente: Wikipedia

Hay unos ratios de transición de la enfermedad entre los diferentes grupos de personas y al final se recuperan. Para todos aquellos que queráis probar con los parámetros recomiendo la webapp, Flatten the curve creada por Ignacio Moreno, donde podréis modificar los parámetros de contagio de la enfermedad:

Fuente: https://flattenthecurve.herokuapp.com

La última forma de modelar el número de infectados en la comunidad de Madrid será por este sistema de ecuaciones diferenciales. Durante todo el periodo la población se divide en los diferentes estados de SIR, siendo los parámetro más sensibles gamma y beta. Gamma está relacionado con la tasa de recuperación y beta con la tasa de contagio.

Haciendo una simulación con la CCAA de Madrid vemos que sin establecer medidas y por como se propaga le enfermedad, todos acabaríamos infectados. En este escenario el 31 de Marzo hubieran habido 3.715.265 contagiados.

Fuente: modelo SIR con parámetros R0 = 6.49, Tasa recuperación = 14días y N = 6.6 millones

¿Pueden las tasas de contagio de Madrid haberse comportado como un modelo SIR?

Con los ratios de propagación del modelo SIR hallados en los diferentes papers, toda la población se vería afectada. Los actos multitudinarios de las últimas semanas rompen todas las hipótesis de contagio, pero de esta manera se vería un escenario sin medida de cautela. Este modelo es muy sensible a los parámetros que lo estiman, pero si no hubieramos establecido medidas, podríamos estar hablando de 1.8 millones de contagiados. En un escenario hoy serían 182.999 contagiados.

Fuente: extrapolación del modelo SIR con parámetros R0 = 6.49 y tasa de recuperación = 14

⚠️ Estos cálculos se realizan a partir del modelo SIR con R0 y tasa de recuperación 14 días. El R0 es la tasa de reproducción, por los actos y la forma de vida de los españoles, ¿podemos pensar que un contagiado ha infectado a 6,49 más?

Fuente: Wang, H., Wang, Z., Dong, Y. et al. Phase-adjusted estimation of the number of Coronavirus Disease 2019 cases in Wuhan, China. Cell Discov 6, 10 (2020). https://doi.org/10.1038/s41421-020-0148-0

Para entender la sensibilidad de este modelo a los parámetros, necesitamos entender las figuras del paper científico en la revista nature de Wang, H., Wang, Z., Dong, Y..

En este gráfico se estiman los diferentes casos de COVID-19 en Wuhan con la metodología SEIR (donde la E significaexposed). La naturaleza de las equaciones es la misma. De este modo, si nos fijamos cómo influye modificar unasdécimas en el factor R0 para calcular el número de infectados: la diferencia de no salir de casa y no contagiar, puede suponer pasar de 11.044 casos a 227.989 en tan solo un mes.

Las medidas que estamos tomando como sociedad sirven para reducir la propagación del virus. Como podemos ver en la siguiente figura, necesitamos reducir la propensión del virus a infectar por debajo de 1 y así:

  • Evitar un colapso sanitario.
  • Reducir los casos de infección.
Fuente: Wang, H., Wang, Z., Dong, Y. et al. Phase-adjusted estimation of the number of Coronavirus Disease 2019 cases in Wuhan, China. Cell Discov 6, 10 (2020). https://doi.org/10.1038/s41421-020-0148-0

Conclusiones

En este post hemos querido intentar estimar los contagiados reales, no los que vemos en televisión (confirmados por diagnostico molecular), a través de tres metodologías. Aquí mis conclusiones:

  • Los contagiados reales pueden ser del orden de 500.000 personas. Esto es, 100 veces más de los actuales confirmados a fecha 17 de marzo.
  • La capacidad de realizar el test no crece a la misma velocidad que los contagios. Por eso el crecimiento de contagiados diagnosticado es cuasi-imposible que siga una exponencial.
  • Intentar calcular el valor de contagiados real exacto es imposible, porqué deberíamos realizar tests a todos los ciudadanos. No sabemos el valor real. Una forma de aproximarla sería enfocar el problema como uno de muestreo aleatorio y buscar una muestra representativa. Metodología de encuestas.
  • Los modelos son muy sensibles a los parámetros estimados. Para entenderlo en más detalle y cómo se suaviza la exponencial a la logística, este video lo explica.
  • Muchas de las hipótesis actuales están realizadas con papers de médicos chinos. Los hospitales Españoles que están padeciendo la crisis están desbordados salvando vidas y la recogida de datos cae obviamente en otro plano. Cualquier ayuda que se pueda hacer en este tema, bienvenida.
  • Ministerio de Sanidad, ¡necesitamos más datos por favor!

Y sobre todo, esperaría estar muy equivocado, estar haciendo unas predicciones muy superiores a las del problema y ojalá no haber tenido que realizar este análisis.

⚠️ Ayúdame a concienciar a más personas por favor 👇

Para cualquier ayuda o colaboración: bort@xplore.ai

Siguiente artículo disponible: “Coronavirus: algoritmos para dimensionar los recursos sanitarios. Estamos a tiempo.”

Agradecimientos: Andrea Martos, Daniel Torralba, Aleix Ruiz de Villa, Rodrigo Taramona, y Carmela Carvajal

--

--

Carlos Bort

Data & Web3. Founder of diferent data companies and initiatives. Head of Data | Kaggle top 1.5% | carlosbort.github.io