Usando ciencia de datos para entender y atacar el coronavirus y otras epidemias.

Estrategias de comprensión, acción y prevención para las crisis epidemiológicas.

Manuel Aragonés Mora
15 min readFeb 28, 2020

Durante el último día del 2019 el gobierno de la República Popular China informó a las autoridades sanitarias internacionales la existencia de una serie de casos de una enfermedad no identificada en la ciudad de Wuhan, China. Siete días después, las autoridades chinas identificaron el virus como un tipo de coronavirus perteneciente a la familia de la gripe común, el SARS y el MERS. La comunidad científica internacional ha denominado como COVID-19 a esta cepa y de acuerdo a los estándares de la epidemiología, este virus ha pasado de ser una epidemia a una pandemia dada su extensión mundial a 42 países hasta este momento.

En los primeros días de su estudio el brote fue rastreado hasta el mercado mayorista de pescados y mariscos de Huanan. Este tipo de mercados, en donde conviven de manera cercana humanos con diversas especies de animales vivos y muertos, han sido identificados como un caldo de cultivo ideal para el contagio de virus entre especies. No es una coincidencia que tanto el actual brote de coronavirus como la epidemia de SARS en 2003 y la de H5N1 (gripe aviar) hayan tenido como foco de infección este tipo de mercados.

Al 26 de febrero de 2020, 2770 personas han fallecido a causa del virus (152 en último día), y el total de casos reportados asciende a más de 81,322, la mayoría de estos provenientes de China continental.

La Organización Mundial de la Salud (OMS) describe algunos de los síntomas de este virus de la siguiente forma:

"Los signos y síntomas clínicos notificados son principalmente fiebre y, en algunos casos, disnea e infiltrados neumónicos invasivos en ambos pulmones observables en las radiografías de tórax."

Hasta el momento se sabe que la letalidad del virus no es tan alta como otras epidemias similares (alrededor del 2% de los contagios terminan en muertes, virus similares como el SARS y el MERS se encontraban alrededor del 60%). Se sabe también que la facilidad del contagio es relativamente alta y que generalmente el virus tarda en incubarse alrededor de 10 a 15 días de manera asintomática. Por esta razón, las personas contagiadas suelen contagiar a otras personas durante este periodo de tiempo sin saberse enfermas. Lo anterior, puede poner en riesgo el sistema de salud al no haber camas de hospitales suficientes para atender al gran número de pacientes contagiados.

Paradójicamente, la baja tasa de letalidad del virus es precisamente lo que hace de este virus algo tan peligroso, ya que la incapacidad de lograr su contención amenaza con expandir el contagio de manera masiva y con su “baja letalidad” cobrar más vidas que ninguno de los virus similares de las últimas décadas .

Ahora bien, la naturaleza masiva de esta y otros brotes de enfermedades respiratorias en una era globalizada sugiere estrategias de combate de gran escala en donde la coordinación y el intercambio de información se convierten en pilares fundamentales para la comprensión, contención y eventual solución de las epidemias.

Es aquí donde la ciencia de datos entra en juego; descrita como herramientas computacionales de análisis de datos a gran escala, junto con técnicas de Inteligencia Artificial (AI) y Aprendizaje de máquina (ML) para aproximarse con mayor poder de entendimiento a un problema de esta magnitud.

En pleno 2020, no podemos prescindir de este arsenal de técnicas, en donde la toma de decisiones y la planificación de estrategias acertadas a este nivel debe ser data-driven.

La ciencia de datos cuenta con una enorme cantidad de métodos cuya efectividad está garantizada por el rigor estadístico, sin embargo, su implementación puede llegar a ser más un arte que una ciencia debido al continuo desarrollo que existe en este campo, así como los constantes procesos creativos en los que los data scientists forman parte: no existe una receta perfecta.

En este artículo, el equipo de deep_dive busca proponer algunas ideas y aplicaciones de la ciencia de datos que podrían tener un impacto en el correcto manejo de esta crisis siguiendo el siguiente flujo de trabajo:

  1. Comprensión del fenómeno

2. Acción

3. Prevención

En la primera fase buscaremos la comprensión del fenómeno a través de la extracción de la mayor cantidad de información del virus y su entendimiento a partir de la visualización de datos utilizando técnicas de GIS (Geographic Information Systems) y análisis de grafos. Esta información servirá como input fundamental para el entrenamiento y despliegue de modelos en la fase de acción, donde proponemos aplicaciones específicas usando spatial-temporal clustering, datos genómicos y algunos modelos de riesgo. Por último, en la fase de prevención exploraremos cuestiones relativas a la arquitectura de datos que podrían sentar bases más sólidas para enfrentar futuros problemas de naturaleza similar.

Comprensión del fenómeno

Una cuestión crítica en la comprensión de un fenómeno epidemiólogico consiste en el correcto diagnóstico de la fase en la que el fenómeno se encuentra.

¿Dónde están los focos? ¿Cómo se da el contagio? ¿Cuántos enfermos existen? ¿A qué velocidad se está propagando? ¿Cuánta gente está en riesgo y quiénes son los más expuestos? ¿Cuál es el mejor método de diagnóstico?

Intentemos responder a algunas de estas preguntas con un workflow típico que empieza por la exploración de los datos.

Esta fase consiste en la extracción de la información que los datos crudos puedan arrojarnos, proponemos esta siguiente lista como punto de partida:

  • Visualización de datos.
  • Geographic hotspots (GIS)
  • Análisis de grafos.

Visualización de datos

La visualización de los datos es una de las herramientas más efectivas en la extracción de los patrones subyacentes de un fenómeno; en las fases iniciales del análisis, ver correctamente los datos nos permite generar nuestras primeras hipótesis.

Al hablar de una epidemia, inmediatamente viene a la mente la utilidad derivada de ver gráficos que nos permitan entender la evolución espacio-temporal en la propagación y letalidad del virus.

Evolución de casos del COVID-19 al 25.02.20

Esta serie de tiempo permite visualizar la evoulución global de los casos reportados del virus. Podemos imaginar la tendencia de los datos a partir del ajuste de un modelo cuadrático.

Como se puede ver, un modelo cuadrático parece no ser la mejor forma de ajustar los datos; sin embargo, la animación de un modelo de este tipo permite comprender mejor la dimensión del problema y su escala potencial.

Un modelo donde los nuevos contagios diarios son lineales (siempre constantes) implica que los contagios totales son cuadráticos.

Normalmente, los modelos usados en epidemiología tienen un crecimiento exponencial, cuya evolución puede superar rápidamente a la de un modelo cuadrático como éste.

Geographical hotspots

Es bien sabido que los primeros brotes de la enfermedad han sido en China, es por esto que nuestro análisis geográfico estará dividido en dos regiones: China y el resto del mundo. Para empezar, visualicemos la evolución de los casos confirmados en cada región.

Evolución de casos en China y el resto del mundo.

Es evidente que China es el foco de la epidemia, sin embargo, dada la interconexión propia del mundo globalizado, el surgimiento de focos de igual magnitud en otras zonas del mundo es factible. Además, parece que en el agregado los nuevos casos confirmados del 25 de febrero en el resto del mundo superan a los de China. Analicemos cada región más a fondo:

(Nota: Los mapas presentados en este artículo están coloreados a partir de una escala logarítmica, lo cuál genera la ausencia del cero.)

La ciudad de Wuhan se encuentra en la región de Hubei, en el centro de China, aquí se encuentra el mayor número de casos confirmados hasta ahora.

Actualmente China cuenta con 77,152 casos reportados, por lo cual en el siguiente mapa, el color correspondiente a su número de casos se sale de la escala propuesta.

Lo preocupante de este mapa es la tasa de crecimiento del contagio transfronterizo y el surgimiento de nuevos brotes en países de todo tipo. Del 24 al 25 de febrero de 2020, 24 nuevos países reportaron su primer caso identificado.

Veamos ahora los casos de fallecimientos reportados en China y en el resto del mundo.

Al 26 de febrero de 2020, 2770 personas han fallecido a causa del virus

Claramente la mayor cantidad de fallecimientos por causa del COVID-19 se encuentran cerca del foco de infección del virus lo que de nuevo coloca a China fuera de la escala comparativa global con 2,615 muertes de 2,770.

Es interesante explorar los casos de Italia e Iran, en donde la letalidad parece ser más alta que en otros países, una hipótesis interesante puede ser que la efectividad de la detección de casos de contagio es baja, subestimando el número de casos de contagio por el momento.

Análisis de grafos.

Dada la naturaleza discreta de los portadores del virus (humanos y algunos animales), es conveniente hacer el estudio de la dispersión y contagio desde una perspectiva de redes. En estas redes cada nodo significa una persona y las aristas (conexiones entre nodos) significan contagios. El modelado de este tipo de fenómenos se vuelve sumamente complicado dada que los contagios son procesos evolutivos de cambio en el tiempo.

Para entender mejor el caso, abstraigamos nuestro análisis del contagio global a uno local, por ejemplo, dentro de las instalaciones del metro de la Ciudad de México (CDMX).

Supongamos que un vagón de metro es de 3 metros * 40 metros y que hay 7 vagones por carro. Esto genera un espacio de 840 𝑚² en donde los contagios podrían ocurrir. Si el carro va lleno, y supongamos una densidad de 9 personas por 𝑚², la cantidad de interacciones se vuelve inmensa.

El número total de interacciones por 𝑚² son el coeficiente binomial de (9,2)=36, es decir 36 interacciones. Ahora supongamos que la persona en el centro está contagiada y además asumimos una tasa de contagio dada la densidad de personas, entonces podríamos simular los contagios.

Por ejemplo, digamos que en 15 minutos de interacción cada persona que viaja en el metro junto a un contagiado tiene 30% de probabilidades de contagiarse. De acuerdo a estos parámetros, en aproximadamente 2 horas, los 8 pasajeros vecinos ya estarían contagiados, esto suponiendo también que los nuevos contagiados no contagian a otros inmediatamente. (es importante notar que estos 30% son un ejemplo ilustrativo, esfuerzos enormes epidemiólogicos se tienen que enfocar en estimar estas tasas lo mejor posible, en esta liga puedes encontrar más información).

La siguiente gráfica permite ver como este promedio converge a 120 segundos después de unas cuantas simulaciones.

Claramente estos parámetros no pueden ser supuestos a la ligera y cada uno de ellos debe ser estimado de la mejor forma posible. Modelos más complejos que parten de estos sencillos razonamientos pueden ser consultados más a fondo en el siguiente link.

Acción

Tomar acción respecto a estos fenómenos es naturalmente la parte más complicada, en esta etapa se articula una solución que implica un despliegue logístico y operativo de gran escala, un desembolso de recursos enorme y una capacidad política extraordinaria, sin mencionar protocolos adecuados, profesionales de la salud capacitados y una solución bien pensada. Todo esto sería imposible de ejecutar correctamente sin saber a qué nos estamos enfrentando y si la solución propuesta no ha sido diseñada en función de los aspectos relevantes encontrados en la etapa exploratoria.

La escalabilidad en el despliegue de los modelos se vuelve crucial, pues un sistema que responde a un fenómeno masivo como una epidemia debe ser capaz de manejar un nivel de concurrencia elevado sin comprometer en ningún momento la eficacia y la velocidad de la respuesta.

Esta sección plantea posibles despliegues de modelos con aplicaciones médicas-epidemiológicas junto con las consideraciones que cada uno debe tener en cuenta.

Visualización genómica.

Gracias al avance en la ciencia médica, la secuencia genómica del coronavirus fue rápidamente determinada y actualmente es open-source. La siguiente figura es una imagen de las primeras 100 bases nitrogenadas del ADN secuenciado:

A partir de esta secuencia visual podemos confirmar algunos conocimientos básicos de biología, como que el ADN de cualquier ser vivo es una secuencia de cuatro únicas bases nitrogenadas (A,C,G,T).

La imagen completa la puedes ver aquí y la información cruda junto con otra información genómica relevante la puedes encontrar acá.***

Esta figura podrá ser estéticamente atractiva, sin embargo, son pocos los insights que pueden agregar valor a nuestro análisis respecto al fenómeno.

Extraer información a partir de esta enorme secuencia no es el enfoque de este artículo, sin embargo, con técnicas como el análisis en componentes principales(PCA) u otras técnicas de reducción de dimensionalidad podemos ayudar a conseguir una medida de similitud entre varias cepas del virus, lo que nos podría guiar en la creación de una vacuna efectiva. Por otro lado, los arboles genéticos nos permiten visualizar la evolución en las mutaciones. El devenir del coronavirus puede consultarse aquí.

Spatial-temporal clustering

Más allá de la identificación de hotspots, otro método de detección espacio-temporal es el uso de baselines. Estos permiten definir lo que consideraremos dentro de un rango normal basándonos en información histórica. De esta manera, podemos detectar eficientemente las congregaciones (clusters) de infecciones anómalas al comportamiento típico o histórico.

Como un ejemplo de aplicación de esta técnica, usaremos un conjunto de datos públicos con el número de estudiantes vacunados en Minnesota en 2018.

Detectamos la región (cluster) donde el número de niños de jardín de infantes vacunados (~ 85%) es significativamente menor que el porcentaje del resto del estado (95%). Es importante tener en cuenta que el grupo detectado no corresponde al área de mayor densidad poblacional de Minneapolis, ya que el algoritmo implementado utiliza un baseline que toma en cuenta la población por lo cual podemos detectar geográficamente situaciones que no son obvias para la conformación de una estrategia efectiva.

Conjunto de datos públicos con el número de estudiantes vacunados en Minnesota en año escolar 2018–2019.

Este método de análisis puede usarse para una variedad de aplicaciones epidemiológicas. Por un lado, podemos detectar las regiones en donde el número de casos es significativamente mayor que en otras áreas. De manera similar, si existiera una vacuna de coronavirus COVID-19, podríamos usar ese conjunto de datos para identificar áreas de mayor riesgo. A partir de aquí, correlacionaríamos las infecciones de coronavirus y las tasas de vacunación para asignar mejor los recursos a las regiones con el mayor riesgo de propagación de la infección antes de que comience a propagarse descontroladamente.

Modelos de riesgo

Un modelo de riesgo epidémico puede pronosticar la evolución de los contagios que cierta enfermedad tendrá y cómo esto afectará al resto de los actores involucrados.

Estos modelos son muy complejos pues dependen de muchas interacciones particulares del contexto de cada virus. La magnitud del coronavirus hace que el diseño de modelos de riesgo sea una tarea obligatoria pues sólo así se podrán ponderar los costos que están en juego: determinación de toques de queda en ciudades, cierres de mercados o espacios concurridos, medidas migratorias y aeroportuarias, entre otras.

Con suficiente información de vuelos se pueden estimar los flujos de pasajeros provenientes de zonas calificadas como “riesgosas” y a partir de ello hacer un análisis costo-beneficio para la toma de medidas preventivas obligatorias como el diagnóstico de cada pasajero que llega y la activación de protocolos sanitarios en caso de detección y así evitar el contagio por esta vía.

Solo siguiendo la tendencia del contagio detectado en algún país, junto con la capacidad de atención médica disponible es posible generar un estimado de distancia a la saturación.

Veamos, por ejemplo, el caso de Italia, en donde la capacidad de atención médica es actualmente de 3.4 camas de hospital por cada 1,000 habitantes. Cruzando la tendencia de casos de coronavirus en este país, observamos el siguiente modelo.

Es importante mencionar que los modelos que mejor ajustan las tendencias epidemiológicas no son modelos polinomiales, sino exponenciales y adaptar características locales para investigar evoluciones regionales.

Dado el ajuste de la tendencia de detección de casos y el número de camas disponibles (pensando que no hay previa ocupación), faltarían entre 36 y 49 días para que no haya una sola cama disponible para atender pacientes del COVID-19 en hospitales italianos, es crucial tomar en cuenta que este modelo considera que todos los paciente desarrollan enfermedad grave y por esto requieren una cama, no es así lo que reduciría un poco la tendencia en modelos más especializados que incluyan más variables. Obtener un mapa mundial o regional para visualizar la distancia a la saturación y algunos otros mapas riesgos es una tarea pendiente que debería llevarse a cabo a la brevedad, en esta liga hay unos de propagación.

Si utilizáramos estos modelos para una estrategia global tendríamos que considerar el despliegue de modelos de gran escala, solo a través de la nube con servicios como Google Cloud, Amazon Web Services o cualquier otra forma de hosteo por internet podría lograrse una tarea de esta amplitud. Cada modelo es distinto, dada sus diferentes arquitecturas y funcionalidades que se adaptan mejor para cada uno de los casos y dependen de los requisitos computacionales, de memoria y de disponibilidad que cada modelo tendrá.

Prevención

Si logramos contener la pandemia eficientemente, no podemos quitar el dedo del renglón. Es importante estar actualizados en las mejores prácticas, pues solo así se puede estar listo para las crisis de esta naturaleza. En esta sección se discute una parte muy importante de la ciencia de datos que corresponde a la infraestructura de los datos y se encuentra más en la ingeniería de datos que en el análisis de los mismos.

Privacidad en el sector salud

Preservar la privacidad de los individuos involucrados en el uso de modelos de ML es una cuestión ética relevante y más aún en casos en los que los datos utilizados podrían tener información sensible, como en el caso del sector salud.

Agradecemos a la Johns Hopkins University por proveer información actualizada diariamente de este acontecimiento y que puede ser consultada en su repositorio de github.

Además, puede ser que en el futuro este tema sea cada vez más relevante para organizaciones que hacen uso de datos personales, ya que tendrán que atenerse a nuevas regulaciones que protejan la circulación de dichos datos, como en el caso del Reglamento General de Protección de Datos (GDPR).

Afortunadamente, hoy en día se han desarrollado (y siguen en desarrollo) herramientas que ofrecen una solución técnica a tal problema, cuya naturaleza es más bien legal y política. Las herramientas más notables en este sentido son el aprendizaje federado, la privacidad diferencial, y el cómputo seguro multiparte (secure multi-party computation, SMPC). En conjunto, estas herramientas pueden proveer un marco de desarrollo de modelos predictivos con encriptación tanto en los datos como en los modelos, lo cual preserva la privacidad de los usuarios.

Por ejemplo, uno de los cambios de paradigmas que establece el aprendizaje federado implica que el aprendizaje ya no sea de forma centralizada (izquierda), sino distribuida (derecha). Es decir, el modelo se mueve a donde están los datos y no al revés.

Aprendizaje centralizado y distribuído.

Imaginemos que se desarrolla una herramienta que puede de manera exitosa utilizar una combinación de datos biométricos, de geolocalización, y de consultas en un buscador como, por ejemplo, Google para hacer predicciones sobre la dinámica de una epidemia. En ese caso los datos podrían ser utilizados para hacer observaciones sensibles acerca de los usuarios, sobre sus hábitos diarios y sobre su estado de salud, que podrían utilizarse de manera adversa. En su defecto, podría ser que los usuarios no estén dispuestos siquiera a otorgar estos datos, dificultando así el desarrollo de dicho modelo. Esto genera un dilema moral: existe un beneficio social directo al poder hacer predicciones acerca de la epidemia, pero esto querría decir que la privacidad de individuos sería coartada. Las herramientas mencionadas aquí podrían facilitar el desarollo de modelos efectivos que puedan sobrepasar este dilema.

Para saber más de este tema recomendamos investigar sobre el trabajo de OpenMined y Dropout Labs.

Conclusiones

A pesar de que la reacción de la comunidad científica internacional ha sido más ágil que nunca, que la información sobre el virus se ha compartido a lo largo de centros de investigación y que las autoridades sanitarias internacionales han activado los protocolos pertinentes a tiempo y con la amplitud suficiente, el virus no ha podido ser contenido y no se espera que se logre contener en el corto plazo.

Pensar que una baja tasa de letalidad para este virus es motivo para no mantener las medidas más estrictas sería un grave error. Observando los patrones de contagio del coronavirus es fácil imaginar cómo en cuestión de semanas los sistemas de salud de un país entero podrían estar completamente colapsados, vulnerando aún más a las personas propensas a morir por este virus y aumentando así, día con día, la cuenta de personas fallecidas por el COVID-19.

Las aportaciones de la comunidad científica activa en el desarrollo de modelos de Inteligencia Artificial, de la cual el equipo de deep_dive forma parte, aportan valiosas aproximaciones analíticas y predictivas para mitigar las crisis de esta y otras naturalezas.

Agradecemos a todos quienes forman parte de este esfuerzo y a quienes colaboraron en la creación de este artículo.

Manuel Aragonés, Jerónimo Aranda, Camila Blanes, Jerónimo Martínez, Arturo Márquez y Javier Cors.

Referencias

--

--