Photo by National Cancer Institute on Unsplash

Análisis de texto simple aplicado a Farmacovigilancia

Adrian Lopez Casanello
Ciencia y Datos
Published in
6 min readJan 18, 2021

--

Internet modificó nuestra visión sobre el manejo de la información en salud y las personas utilizan cada vez más las redes sociales para compartir experiencias sobre su salud. Sin embargo, muchas personas desconocen la importancia de comunicar las reacciones adversas a medicamentos (RAM) a través de los canales de notificación apropiados u oficiales, por lo que la utilización de este tipo de medios “no oficiales” para compartir al público la experiencia con el uso de fármacos se torna, infelizmente, en una práctica regular.

La búsqueda activa de información de seguridad en redes sociales y por fuera de un entorno corporativo/institucional no es una práctica estándar en las unidades de farmacovigilancia. Además, el alcance del monitoreo dentro de un entorno controlado es muy limitado frente al “océano” de datos disponible en las redes sociales.

¿Como analizamos este tipo de datos?

Se denominan “datos estructurados” a la información que se encuentra en la mayoría de bases de datos. Son colecciones de datos alfanuméricos que se suelen mostrar de manera organizada en filas y columnas (ej., base de datos Access, tabla Excel) y cuyos datos pueden ser fácilmente procesados y analizados. En cambio, los “datos no-estructurados” son datos no-organizados (ej., e-mail, documento de texto, pagina web) y que requieren de técnicas específicas para su tratamiento. Las redes sociales forman parte de este universo de datos no-estructurados.

En la actualidad disponemos de métodos inteligentes y eficientes para la extracción, clasificación y análisis de datos no-estructurados. El concepto de minería de texto (text mining) refiere al proceso de extraer conocimiento/datos valiosos desde un texto simple y abarca desde métodos muy básicos (ej., búsqueda y clasificación de palabras dentro de un texto) hasta el desarrollo de modelos de clasificación basados en aprendizaje automático (machine learning) que se usan, entre otras cosas, para predecir términos por ingresar (ej., cuando un buscador web nos sugiere términos a medida que tipeamos una búsqueda).

Hoy en día existe un importante campo de investigación sobre técnicas de minería de texto aplicadas a fuentes de datos secundarios (ej., historia clínica electrónica) para investigaciones médicas y farmacovigilancia (real-world evidence) y esto pasará a ser una actividad habitual en los proximos años.

Veamos un ejercicio de análisis de texto con datos reales

Twitter es una red social en la cual los usuarios pueden enviar mensajes de texto o tweets (máx. 280 caracteres) que se muestran en la página del usuario. Los usuarios pueden seguir a los tweets emitidos por otros. Por defecto, los mensajes son públicos, aunque pueden difundirse mensajes en forma privada. Cada usuario, a su vez, puede copiar tweets generados por otros dentro de su propia página (retweets). Twitter tiene +340 millones de usuarios activos a nivel mundial (ranking #13, Ene-2020)

Exploramos los tweets que mencionen a los AINEs ibuprofeno, ácido acetilsalicílico y paracetamol. Se ocultan nombres comerciales o identificadores de personas.

Herramientas utilizadas para el ejercicio

  1. Software “R”: es uno de los mejores (sino el mejor) software para análisis estadístico y gráfico. Es, además, un desarrollo colaborativo de código fuente abierto, por lo que puede descargarse libre y gratuitamente.
  2. Cuenta de Twitter para desarrollador, la cual permite acceder a la interfaz para la búsqueda de datos desde “R”. Se obtiene de manera gratuita.

Estrategia de análisis

  1. Buscar tweets con mención de AINEs
  2. Segmentar palabras asociadas a términos clínicos y fármacos
  3. Buscar RAM

Resultados

Buscamos todos los tweets publicados en un periodo de 7 días (07 al 14 de agosto, 2020) con mención de, al menos, 1 AINE. Para mejorar la precisión de la búsqueda, agregamos términos similares y sinónimos (ej., acetaminofén, acetaminofeno, aspirina). Solo incluimos tweets redactados en español, públicos y excluimos los retweets. Para este tipo de búsquedas hay que tener en consideración las numerosas limitaciones derivadas del tipo de lenguaje utilizado por los usuarios, redacción poco clara y/o coloquial, errores ortográficos, uso extenso de abreviaturas y símbolos.

En una búsqueda inicial encontramos un total de 12.971 tweets y con las siguientes frecuencias de mención a cada AINE:

Frecuencia de tweets que mencionan AINEs durante el periodo 07 al 14 de agosto, 2020

Tras eliminar palabras que no aportan información útil (stop words) tales como artículos, preposiciones, etc., identificamos un total de 123.675 palabras. A continuación, se muestran las mencionadas con mayor frecuencia:

Del gráfico se desprende que las publicaciones referidas al uso de AINEs se encuentran influenciadas por el contexto de pandemia COVID-19 y el uso de estos fármacos para el tratamiento sintomático de esta u otras patologías.

Luego agregamos un filtro que excluye palabras no asociadas a un término clínico o fármaco y observamos que “dolor”, “dolor + cabeza” y “fiebre” fueron los términos ingresados con mayor frecuencia (ver abajo), situación esperable para este tipo de fármacos. Se observa tambien la mención de otros fármacos utilizados como terapia experimental para el COVID-19.

De manera complementaria exploramos los hashtags más frecuentes en el contexto de los tweets que mencionan a AINEs, aunque este análisis tiene poca relevancia. Esto se puede visualizar mediante el gráfico nube de palabras (word cloud)

Nube de palabras (hashtags de tweets con mención de AINEs)

¿Cual sería la utilidad de este tipo de análisis?

El monitoreo de seguridad mediante la medición de palabras frecuentes en redes sociales y/o buscadores web puede ser útil para la identificación precoz de errores de medicación y nuevas sospechas de RAM durante los primeros años tras la introducción de nuevos fármacos, entidades moleculares, indicaciones terapéuticas o formas farmacéuticas. Además, este análisis puede correrse en forma diaria y esto nos permite conocer y graficar las variaciones y tendencias de las palabras clave a lo largo del tiempo y según su geolocalización. Si bien este tipo de monitoreo no permite establecer conclusión alguna sobre la seguridad del producto, si nos posibilita la elaboración de hipótesis de investigación.

Búsqueda de RAM

Por último, ejecutamos una búsqueda de sospechas de RAM dentro de la población de tweets que mencionan AINEs (= 12.971). Para este ejercicio, filtramos tweets que contenian las palabras “fatal”, “reacción”, “efecto” y/o “adverso” y sobre estos (= 270) realizamos la búsqueda de RAM. Asumimos que tener una cuenta de Twitter es suficiente para cumplir con el requisito de un notificador identificable, aunque esto no es un estándar para los requerimientos regulatorios.

Identificamos 35 sospechas de RAM y 1 error de medicación distribuidos de la siguiente manera:

Cantidad de sospechas de RAM identificadas

La mayoria refiere a comunicaciones asociadas a la falta de efecto, seguido por reacciones de tipo alérgicas. A continuación se muestran algunos ejemplos de sospechas de RAM identificadas:

Y el error de medicación:

Es esperable que la información sobre cada sospecha de RAM o error de medicación identificado en redes sociales no permite establecer conclusión alguna sobre la seguridad clínica del fármaco. La información proporcionada suele ser muy escasa y, en la mayoria de los casos, no es posible lograr un seguimiento para obtener datos adicionales. Sin embargo, ejercer un monitoreo de seguridad activo en redes sociales es importante, debido a que la información recolectada en forma acumulativa nos puede permitir establecer hipotesis de investigación sobre un potencial uso erróneo del fármaco y/o nueva información de seguridad.

--

--

Adrian Lopez Casanello
Ciencia y Datos

Medical Doctor | Clinical Research & Pharmacovigilance Data Analytics