100 días de pandemia en Chile, radiografía a las interacciones en twitter.

Capturamos 8 millones de Tweets y los procesamos para entender la conversación que hemos tenido los chilenos en esta red social sobre la pandemia.

Carlos Walker
Connectalabs AI
7 min readJun 24, 2020

--

El jueves 11 de junio se cumplieron 100 días desde la aparición del primer caso de coronavirus en Chile, con 154.092 contagiados y 2.448 (fuente Minsal: https://www.minsal.cl/autoridades-de-salud-realizan-balance-a-100-dias-de-declarada-la-pandemia-covid-19-en-el-pais/)muertos por el virus hasta esa fecha según fuentes oficiales. No ha sido fácil y pareciera que aún no vemos la luz al final de este túnel. El tema no ha sido indiferente a nadie, y en un país donde la prensa tradicional es cada vez más cuestionada, los ojos y opiniones se vuelcan a Twitter, medio por el cual la información fluye al ritmo de un clic, donde todos pueden ser periodistas y opinólogos, y de una tracción tan fuerte, que políticos y gobiernos lo utilizan como canal oficial.

En vista de lo anterior, en ConnectaLabs AI decidimos buscar una forma de entender estas conversaciones, analizar sus principales temáticas y participantes y también ver cómo todo lo anterior ha reflejado la cronología de las diversas etapas y acontecimientos de esta pandemia. Para hacer esto utilizamos Advanced SML (Social Media Listening) by Connectalabs, donde capturamos 8 millones de Tweets referentes a la crisis sanitaria provenientes de Chile, y los procesamos mediante modelos de analytics, machine learning y deep learning para extraer temas relevantes, relacionarlos, perfilar a sus locutores y generar la historia de su evolución.

1-¿De qué opinaron los chilenos durante estos 100 días?

Grafo con los dieciocho mil tweets más relevantes, coloreado por los principales temas basados en su similaridad semántica.

Lo primero que hicimos, una vez capturada la data, fue procesar cada mensaje e imagen mediante modelos de deep learning para “entender” el significado de cada Tweet y conectar aquellos que hablaban de temas similares (en base a modelos de lenguaje natural y deep learning como S-BERT y otros). Con esta información, generamos una estructura de grafo considerando los 18.000 tweets más relevantes para entender en una sola vista los grandes grupos o temas de discusión (representando un 64% del total de las interacciones), generando clusters de temas y entendiendo la discusión en base a sus principales N-gramas.

En este análisis, tras revisar los términos más comunes de cada grupo, somos capaces de encontrar 9 temas distintos que resumen los principales tópicos de conversación. Al colorearlos en el grafo, vemos un gran eje que ordena la discusión, separando elementos referentes a la evolución de la pandemia en su arista médica de aquellos enfocados en las reacciones a ésta, desde un punto de vista político y social. En este sentido vemos en un extremo la conversación en torno a los casos de contagios y muertes relacionadas a la pandemia (Casos, 5% de las interacciones), pasando por conversaciones sobre la pandemia y sus características (Covid19/Coronavirus, 33,8% de las interacciones), hasta discusiones sobre las medidas de prevención (Cuarentena, 9% de las interacciones) y reacciones a los diversos actores y autoridades encargadas (Mañalich 8,13%, Sistema de Salud 7,65% , Fach 5,89% y Apoyo a los Trabajadores de Salud 4,22%).

Una vez definidos los principales temas de discusión y su relevancia, analizamos cómo fueron estos mensajes en términos de optimismo o pesimismo. Para ésto estimamos el sentimiento de cada mensaje usando herramientas de lenguaje natural (basado en BERT). En este análisis destaca un sesgo general negativo, lo cual es entendible dada la naturaleza de Twitter y la situación actual. Es interesante notar que existe una excepción del sesgo negativo cuando se habla sobre el apoyo a los trabajadores de la salud y, en menor medida, cuando se discute el rol de la Fuerza Aérea.

Los temas con mayor connotación negativa son aquellos relativos a la discusión política. En esta área es interesante notar que la discusión sobre el ex-ministro Jaime Mañalich posee niveles de polarización por sobre la media (en el sentido que la proporción de mensajes negativos y positivos es mayor) lo que se ve reflejado en mensajes negativos y positivos, donde de todas formas el peso de los mensajes con sentimiento negativo es mayor.

2-¿Quienes opinaron?

Como segundo paso buscamos ver si existen diferencias relevantes de contenido entre distintos segmentos y perfiles de usuarios. Para esto empleamos un proceso de segmentación de usuarios, en cual en base al tipo de mensaje, modo de escritura (emojis, puntuaciones, uso de mayúsculas, faltas ortográficas, uso de jerga, etc.), perfil y otras variables podemos entrenar un set de modelos de deep learning y machine learning (transfer learning basado en BERT y GradBoosting Machines para ser más exactos) y así estimar niveles de edad, género y estrato socioeconómico. Es importante destacar que los usuarios de Twitter poseen fuertes niveles de sesgo y no reflejan proporcionalmente a la población general. Por ejemplo, es posible ver una muy baja representación de estratos socioeconómicos menores a C3 y se ve una fuerte sobrerrepresentación de personas entre 20 y 30 años, además de una mayor representación de hombres v/s mujeres.

Analizando el grafo bajo los quiebres ya mencionados, vemos diferencias relevantes entre grupos etarios y estrato socioeconómico (no se ven diferencias relevantes entre géneros). Las personas mayores de 30 años comentan más sobre los temas relacionados al virus, sus casos y su arista médica. Esto se puede deber a que este grupo etario se encuentra más expuesto a la enfermedad y muestran mayor preocupación al respecto. Por el contrario, los grupos menores de 30 años, interactúan más en los temas sobre la gestión y medidas relacionadas al virus, como las cadenas nacionales, cuarentenas, ministro de salud y sistema de salud. Esto se puede entender como, al tener una menor percepción de riesgo ante la enfermedad, su preocupación se enfoca más en los otros aspectos, como las cuarentenas, a las cuales si están afectos, o temas relacionados a la gestión del gobierno, sobre los cuales si opinan.

En la dimensión de estrato socioeconómico, comparamos la diferencia entre niveles superiores a C1 con aquellos menores a C3, viendo varios puntos interesantes a discutir. En primer lugar los segmentos C3 o inferiores muestran una mayor preocupación por los temas relacionados al número de casos, el rol de la Fach y el sistema de salud. Por otra parte, los segmentos C1 o superiores poseen un mayor foco en elementos relativos a las cuarentenas, la comparación con otros países y el rol del ex-ministro Mañalich (tendiendo a ser positiva en vista de los n-gramas empleados). Este fenómeno se puede interpretar como que los segmentos altos poseen menos dependencia del sistema público (salud pública y la ayuda humanitaria entregada por las Fach), por lo que opinan menos al respecto.

3-¿Cómo evolucionó esta conversación?

Comparamos la evolución en el tiempo del volumen de actividad y sentimiento de los temas relacionados con la pandemia en su arista médica. Estos los agrupamos en temas relacionados a Salud/Casos. Por otro lado, agrupamos en el tema Repercursiones/Política las reacciones que se enfocaban en una arista política y social. En el gráfico se puede observar como al inicio, la conversación se centró más en el tema de Salud, lo que viene acompañado por un mayor sentimiento de negatividad, pero inmediatamente después se invierte, y los temas más políticos se toman la discusión acompañado de un sentimiento más neutro. El cambio se da en el primer peak que corresponde al dia de la primera cadena nacional, donde el presidente Sebastián Piñera anunció la suspensión de las clases en todo Chile. Esto vuelve a revertirse al final del gráfico, con el aumento de los casos y fallecidos, volviendo a caer en sentimientos más negativos. Otro punto interesante a destacar en el gráfico son los dos peak de mayor sentimiento positivo, que en ambos casos, corresponden a los días de las campañas en apoyo a los trabajadores de la salud #ChileTeAplaude.

Por último, otro aspecto interesante de la evolución del volumen de actividad se observa en el siguiente gráfico, donde vemos cómo fue variando en el tiempo la terminología utilizada para referirse al virus. Al inicio, cuando aún no existía mucho conocimiento sobre éste, el término más utilizado era coronavirus. En la medida que empezó a haber mayor información sobre la enfermedad, se comenzó a referir a esta con el término covid, y ya en el último tiempo como covid19.

4-Para Cerrar…

Un tema tan complejo como la pandemia que todos estamos viviendo da para infinitos análisis y probablemente pasará mucho tiempo antes de que podamos entender todo lo sucedido. Sin embargo, el uso de herramientas como las presentadas en este análisis pueden ayudarnos a empezar a comprender lo que está sucediendo y cómo hemos reaccionado a ello, para así poder generar discusiones y tomar medidas que resuenen con las problemáticas que más nos afectan.

Desde el equipo de Connectalabs les enviamos un fuerte abrazo, cuidense y mucha fuerza para salir adelante!

#StaySafe

ConnectaLabs AI

ConnectaLabs AI es una empresa especialista en el desarrollo de soluciones de inteligencia artificial para la comprensión de los clientes. Si quieres saber más de nosotros y nuestros servicios puedes contactarnos en nuestras RRSS.

Email: ai@connectalabs.ai
Web: https://www.connectalabs.ai
Linkedin: https://www.linkedin.com/company/connecta-labs-ai
Medium: https://medium.com/connecta-a

--

--