Big Data y Enfermedades Raras

17 min readOct 30, 2017

La semana pasada se celebró el Simposio de Enfermedades Raras y Big Data. Cuando me invitaron a participar, ya en marzo, decliné participar puesto que mi relación con enfermedades raras se reduce a la exposición que conlleva un par de casos en mi familia, y la sensibilidad e importancia que esto aporta. Afortunadamente insistieron, y me obligó a reconocer que esto es justo el mensaje que intento destacar del valor de un científico en la sociedad: no son los conocimientos técnicos de un tema en concreto, sino las herramientas que desarrollamos para aplicarlo a entender y mejorar la sociedad. Haber profundizado esta labor en el Banco Mundial y como consultor en varios países me hacían sentir aún más obligado a aceptar el reto.

No ha sido fácil, desde entonces he buscado y rebuscado información en Internet, he contactado cuanto experto he visto que puede ser importante y buscado hueco en mis viajes para reunirme y buscar respuestas. No son pocos los lugares donde he buscado: desde Harvard a Japón, Buenos Aires a Londres, por email, teléfono o sobre un café. Hablando con pacientes de estas enfermedades o con inversores en “startups” de salud. Algo he encontrado, pero muy poco. Hay ciertos expertos en Enfermedades Raras usando ciertas definiciones parciales de Big Data, pero no he encontrado ninguna respuesta claramente centrada entre estos dos campos. Big Data y música, sí. Big Data y diagnóstico clínico, sí. Big Data y finanzas, sí. Big Data y enfermedades raras? No está nada claro. Esto confirma la necesidad de este simposio.

El programa del Simposio está aquí, donde pronto estarán también las presentaciones hechas. Una vez pasadas las conferencias creo se confirma la experiencia de mi búsqueda. Hay variedad de esfuerzos de expertos en Enfermedades Raras usando ciertos aspectos de Big Data, pero es muy difícil ver el nivel de resultados que se han visto en otros campos. Son expertos médicos, investigadores biomédicos o bioinformáticos que por razones profesionales y por modernizarse incorporan ciertos aspectos de Big Data. Pocos fueron los casos, como el de Julián Isla, donde me pareció ver un perfil más diferente, en el otro sentido: un experto en Big Data que, por razones personales, busca aplicar Big Data a este tema. En paralelo, otro grupo de iniciativas interesantes y muy relevantes fueron aquellas centradas en agregar y procesar bases de datos, como los casos de RD-Connect, Rare Connect, Human Phenotype Oncology, …

Este post es una transcripción de mis notas para la charla, con enlaces y referencias. Esta posiblemente sea la charla más difícil que he dado. Ya me dirán qué les parece.

Ir acompañado en diversidad

En el primer día del Simposio hemos visto multitudes de charlas sobre Enfermedades Raras, y cómo usan Big Data. El énfasis es fundamentalmente en Enfermedades Raras, y en mayor o menor medida, la aplicación de Big Data. Lo que quiero contar es lo contrario. Quiero contaros sobre Big Data y ver cómo Enfermedades Raras es una de las posibles aplicaciones. Hay una razón fundamental para esto: ustedes son expertos en Enfermedades Raras. Yo soy más experto en Big Data. Estoy convencido que la innovación llega de la mezcla. Como el dicho africano que dice que “Si quieres ir rápido camina solo, si quieres llegar lejos ve acompañado”. Como la historia de la vida misma que en la diferenciación de las células trabajando juntas está la evolución. Mezclar con un poquito de algo nuevo lo conocido crea innovación incremental. Confrontar expertos de temas muy distintos es el catalizador de innovación fundamental. Entonces, quiero llevarles muy lejos, al centro del mundo de Big Data, y una vez allí, hablemos de Enfermedades Raras. No al revés.

Si de verdad quieren explorar el efecto de Big Data, vayan a donde están los expertos de Big Data y escuchen, hagan preguntas; así como yo vengo aquí a escuchar y hacer preguntas. Igual solo aprenden algo nuevo… Igual consiguen empezar el camino de algo revolucionario.

He aquí un ejemplo. Por un lado tenemos el problema de mortalidad neonatal. Muchos niños, sobre todo el países en vías de desarrollo, mueren a las pocas horas o días de nacer por varias razones remediables en nuestros países. Entre ellas por su poca capacidad de regular su temperatura. De hecho, hay muchos esfuerzos para subvencionar y comprar incubadoras. La realidad es que son difíciles de operar, caras, no funcionan cuando se va la luz, hay que desplazarse al hospital … Es un problema.

Por otro lado, todo físico o ingeniero sabe que durante toda transición de fase, la temperatura se mantiene constante. No hay agua a más de 100 grados, si la calientas, se evaporará entera antes de que el vapor siga aumentando su temperatura.

Una vez tenemos esta propiedad en mano, la solución del problema de las incubadoras pasa por encontrar una… cera por ejemplo, que podamos calentar, por ejemplo, en agua caliente. Una vez líquida y caliente, se solidifique a la temperatura constante que necesita el bebé.

Esto es la idea que Jane Chane y su equipo tuvieron para crear Embrace: básicamente un saquito de tela en cuya espalda pones una lámina de cera plastificada que calientas y reutilizas sin problema. Lo relevante de esto es agrupar un equipo radicalmente multidisciplinar alrededor de un objetivo concreto común.

Buscar la aplicación de ciencia, no para investigación académica, sino para impacto social, es mi pasión y trabajo desde hace unos 7 años, cuando dejé mi postdoc de cohetes de la NASA. Buena parte de ellos ha sido usando Big Data: en una empresa de mapas en San Francisco, en una ONG sobre cambio climático, en Banco mundial, en una empresa de avellanas en Bután. O como VP de Impacto actualmente en la empresa de satélites Satellogic. He trabajado con los más “geeks” de San Francisco, y con presidentes que te dan literalmente 30 segundos para que les cuentes por qué y para qué hacer esto de Big Data.

Con todo esto en mente, tras incontables horas, para esta charla, creo que lo mejor es que sigan con su lente de Enfermedades Raras mientras yo les cuento 2 cosas: las sombras de Big Data, y las luces de Big Data (en este orden para que quede buen sabor de boca). Luego comentaré más en concreto lecciones aprendidas aplicando Big Data en general; y finalmente mis ideas con Enfermedades Raras. Y al final, y lo más importante: que con este trajín de ideas, empecemos juntos la ronda de preguntas, respuestas, ideas, …

Big Data no es tener muchos datos

En la práctica llamamos Big Data ha casi cualquier cosa. A veces porque no sabemos, y a veces porque decir que hacemos Big Data da más prestigio, o fondos. Pero creo que es importante recordar que Big Data no es cuestión de tamaño.

Big Data ha sido liderada por el sector privado, para apoyar decisiones (sin paciencia académica), y se apoya en la confluencia de 3 factores: cada vez más fácil crear más y más tipos de datos, cada vez más fácil guardar datos, y cada vez más fácil procesarlos. Los 3 a la vez. Por y para eso.

Big Data ha sido liderada por el sector privado. Antes a esto los científicos le decíamos simplemente procesar datos. Es el sector privado, en concreto el tecnológico y en Silicon Valley, los que empezaron esta revolución. Esto no quiere decir que se pueda usar en academia, o por el sector público…

Big Data no se desarrolló para ayudar a “entender”. Se desarrolló mayormente para ayudar a tomar decisiones. No es tanto para ayudar a entender el por qué o cómo. Big Data es poner enfrente de 10 millones de personas miles de variantes de una página, y ver cuál funciona mejor. Sin tener que explicar por qué.

Sombras de Big Data

No quisiera crear una idea de que Big Data es el Santo Grial, pero sí que es una herramienta extremadamente potente que solo ahora empezamos a dominar. Como dice la ley Amara, tendemos a sobrestimar el efecto de una tecnología a corto plazo y subestimar el efecto a largo plazo. Esto creo que es lo que lo pasa en Big Data. Empiezo con las sombras:

Uno de los creadores de Big Data, Facebook, tenía como eslogan “ve rapido y rompe cosas”, como reflejo de lo bueno que es probar y experimentar. Fallar y aprender rápido, y seguir mejorando. Esto vale cuando experimentas colores con una página web para poner dónde has estado de vacaciones, pero no cuando estamos probando medicamentos que salvan o cuestan vidas. Si queremos usar Big Data para desarrollo de medicamentos o para enfermedades, hay que tener más cuidado que cuando usamos Big Data para una página donde poner las fotos de tus vacaciones.

Big Data le puede decir a tus padres que estás embarazada antes de que tú se los digas. La capacidad de calcular la probabilidad de algo a partir de señales parciales ya en 2012 permitió a Target suponer como embarazada a una mujer por sus últimas compras, típicas de este tipo de clientes en los primeros meses. El problema es que los cupones al efecto que se enviaron a casa los vio su padre antes de que ella se lo dijera. Esto, en nuestro caso, demuestra la inmensa capacidad de capturar patrones extremadamente pequeños entre muchas señales, como bien podría ser de utilidad en medicamentos, tratamientos o avance de una enfermedades rara.

Google fotos detectaba gente negra como gorilas. O las cámaras que detectan a asiáticos como siempre parpadeando. Esto se debe a que los datos de entrenamiento no eran suficientemente diversos. El algoritmo, al encontrar un caso no reconocible aplica una suposición incorrecta. Esto demuestra la importancia de ser extremadamente conscientes del rango de variabilidad de los datos que tenemos, y de los resultados que esperamos.

Equifax, afectada por un robo de datos de 143 millones de personas. Este robo implica datos no cambiables y personales, como el número de seguridad social, fecha de nacimiento, direcciones donde uno ha vivido, … Si vamos a tener bases de datos sobre enfermos para innovar con ellos y procesarlos, hemos de ser extremadamente cautelosos para evitar si esto pasa, y si pasa minimizar su impacto.

A los que les interesen más ejemplos de sombras de Big Data o, más importante, entender cómo ser consciente de estos problemas y cómo afrontarlos, recomiendo el libro “Weapons of Math Destruction”

Luces de Big Data

Es indudable que Big Data ha hecho posible lo que parecía imposible hace poco tiempo (o magia, por hacer un giño a las leyes de Clarke).

Google pagó 600 millones por DeepMind. Parece mucho dinero. Una vez dentro de la empresa, Google uso Deepmind para mirar el consumo de energía en aire acondicionado, calefacción, luces, … y les ahorró el 40 % uso de electricidad a Google (casi que se paga a sí mismo en un par de años). Esto da una muestra de cómo un sistema basado en inteligencia artificial es capaz de absorber la complejidad de un sistema tan variable y vital como el uso de electricidad en una empresa de ordenadores. De absorber esa complejidad y poder controlar cómo cambiar las variables para optimizar las recomendaciones.

Hay fondos de inversión, como Medallion, que tienen un retorno muy elevado. Un 3% anual no es raro. Estos tienen hasta el 100% de retorno anual. ¿Parte de su secreto? Son un 90% de PhD en matemáticas. No economistas. No expertos en finanzas. Matemáticos. Esto demuestra de nuevo la inmensa capacidad de absorber y predecir la evolución de sistemas complejos.

Buscar en Google entre trillones de páginas, y encontrar — y ordenar por relevancia- las millones de páginas relevantes, en décimas de segundo. Con un resumen como primer resultado. Otro caso de un procesado, o pre-procesado, de ingente cantidad de datos que permite encontrar información relevante.

Quien use Spotify estará de acuerdo conmigo que las recomendaciones de canciones que te pueden gustar suelen ser buenísimas. Otro ejemplo de cómo encontrar patrones entre datos. Dudo que Spotify tenga muchos expertos musicales, pero seguro que tiene mayoría de ingenieros de datos.

Uno de los últimos cacharros de Google son unos cascos que no sólo entienden lo que se habla a tu alrededor, sino que lo traduce instantáneamente a otros idiomas. En varias de las charlas que hemos escuchando se desataca la dificultad de digitalizar los historiales médicos, de estandarizar los términos (por ejemplo usando el HFO) y de las barreras de interoperabilidad. Si podemos transcribir el audio a texto, y podemos traducir el texto entre idiomas, no hay barrera técnica para que simplemente un micrófono escuche al médico hablando al paciente y vaya escribiendo exactamente la taxonomía de fenotipo técnica.

Una de las labores principales del Banco Mundial es hacer encuestas casa por casa en países en vías de desarrollo para ver como está su situación socioeconómica y como ayudar a mejorarlo. Para esto se dedican millones de dólares, mucha gente y muchos meses, incluida la fase de listar dónde están las casas.

A su vez, Facebook quiere regalar Internet. Para esto quiere saber dónde vale con poner Wifi gratis (en las ciudades), dónde la gente vive muy lejos unas de otras (y necesitan usar Internet por satélite, que es más caro), y dónde hay una densidad media de casa y vale con poner drones a alta altitud con Internet. Esencialmente el mismo problema que el Banco Mundial tiene cuando quiere listar las casas a donde ir.

El Banco sigue usando esencialmente las mismas técnicas desde hace décadas. Facebook puso un pequeños equipo de un par de programadores veinteañeros y en un par de meses resolvieron el problema. Usando imágenes de satélite y software de reconocimiento de patrones, buscaron todas las casa de un pais. 100% de precisión? no, pero lo suficiente para tener su respuesta y seguir adelante. Cuando esto pasó, yo estaba en el Banco y nuestro equipo intentó adaptar esta técnica, solo para encontrar problemas (muy razonables) en su aplicación por su fiabilidad limitada. Al final Facebook liberó este código y trabajó junto la Universidad de Columbia, y demostró que a veces necesitamos buscar un compromiso más innovador en nuestros sistemas. No es que debamos incorporar todo lo que salga por nuevo e innovador, sin menospreciar las limitaciones y problemas, pero estoy convencido que un término medio sería muy positivo.

De hecho, en mi tiempo en el Banco Mundial, nuestro trabajo principal era ver cómo aplicar Big Data en temas de desarrollo, con datos de desarrollo, en entornos de desarrollo. Cuanto más tiempo le dedico a esto de Big Data y Enfermedades Raras, más veo similitudes entre nuestro trabajo en el Laboratorio de Innovación y el caso de Enfermedades Raras. Muchos de los problemas que allí teníamos era digitalizar, procesar, minar datos, crear incentivos locales de sostenibilidad, entornos adversos a innovación radical, … Casi todos los miembros de este Laboratorio de Innovación éramos más expertos en datos que en economía o desarrollo (eso sí, trabajando mano a mano con expertos del tema y con equipos locales en los países donde trabajamos).

Aplicaciones de Big Data

En mi experiencia llevando Big Data a otros campos, he visto ciertos patrones que se repiten.

Parece que es más fácil traer aplicaciones a expertos en Big Data, que Big Data a expertos en aplicaciones. Por ejemplo, son expertos en Big Data los que hacen coches autónomos, no empresas de coches las que se ponen a automatizar. Esto es duro de aceptar. No es que la experiencia del conocimiento no sea valiosa, pero sí que estas herramientas parecen extremadamente eficaces en sí mismas. En este sentido cabe destacar cursos de BigData (como fast.ai) que están enfocados exclusivamente a su aplicación rápida, sin excusas de explicaciones de la teoría, o la matemática. Son cursos que te ponen a usar los mejores algoritmos rápidamente, y luego explican si hay tiempo.
Tener datos puede ser lo fácil. Tener datos listos para ser analizados es extremadamente raro y consume mucho tiempo. No hace mucho había tesis doctorales cuyo trabajo era literalmente digitalizar y normalizar una base de datos. No es el tamaño, es tener los datos en una forma que sea consumible.
Busca fuera, crece dentro. Como intento poner de manifiesto aquí, todo este hilo parte de buscar innovación buscando fuera, en otros dominios, con otros expertos. Más importante quizás buscar fuera, que intentar incorporar de primeras estas técnicas en expertos del tema. Una vez identificada la herramienta y capacidades que queremos incorporar a nuestro tema, es más eficiente a largo plazo crecer esta capacidad interna si es posible. En la práctica muchas veces se buscan colaboraciones, pero si es posible, creo que es mejor crear un equipo interno, que buscar colaboraciones o proveedores externos. Digo “crece” y no “crea” para notar que es bueno intentar evitar crear nuevas iniciativas o formatos o proyectos, si ya hay algo empezado en otro entorno o equipo.
Es vital saber ajustar qué decimos y cómo, y a quién se lo decimos. No es lo mismo hablarle de Big Data a un experto técnico de un problema, a un paciente o su familia, a un ministro, o a un periodista. El objetivo es el mismo, pero saber comunicar es vital. Cada parte con quien colaboramos bien debiera saber todo los aspectos si quiere, pero es aún más importante que entienda el papel principal que juega, que se espera, y cuáles son los posibles problemas y beneficios.
En la práctica no existe el progreso basado en datos. Tener y procesar datos es solo una parte de la solución. Muchas veces lo difícil es temas de privacidad, culturales, religiosos, de manejar expectativas, financieros … Los científicos solemos ser bastante paternalistas y dogmáticos liderando con datos, cuando la realidad suele ser mucho más complicada. Aquí es cuando la experiencia de los que viven las Enfermedades Raras día a día es irreemplazable (desde pacientes, a familiares, investigadores o médicos).

Este último punto me parece muy importante, y de los que más cuesta cuando eres científico académico. Así que haré referencia a 2 ejemplos que por paralelismo puedan ayudar: Resolver el problema de cambio climático no es un problema de datos. No está claro que otro artículo más es lo que más necesitamos para avanzar para estar más cerca de solucionarlo. Parece que el bloqueo de avance es más político o social, no por falta de datos. Otro ejemplo, la crisis de SIDA en USA. En 1982 teníamos los datos que estaba presente en los bancos de transfusiones de sangre. No fue hasta 3 años después, y 5000 muertos, cuando empezamos a analizar las muestras por SIDA. No fue un problema de datos. La inhabilidad de pasar del conocimiento y los datos a la acción de analizar la sangre de las transfusiones por el virus costó muchas vidas.

Aplicaciones De Big Data en Enfermedades Raras

Este Simposio está dejando de manifiesto el potencial de Big Data en las Enfermedades Raras. No cabe duda que ya existe valor en al menos 2 grandes esferas: la ayuda al diagnóstico, y en el descubrimiento de medicamentos. Esto se hace mediante el uso de Big Data, por ejemplo en el procesado de datos, aunar datos en plataformas estandarizadas o estrategias de compartir y alertar a redes de expertos o pacientes.

Lo que sigue son puntos que veo sería interesante considerar, que intentan usar los beneficios de Big Data para Enfermedades Raras, más allá de lo que ya se está haciendo.

En el proceso de preparar esta charla, y durante el Simposio, me ha sorprendido el paso inmediato entre Enfermedades Raras e investigación. Creo que hay mucho que se puede hacer que no es investigación. Como centrarse en Calidad de Vida, sin necesariamente pasar por hacerlo vía investigaciones académicas. En esto Big Data puede ser un aliado. Por ejemplo con cuantificación personalizada: medir el pulso, lo que se come, cómo se siente uno, cómo duerme, … Una vez que tenemos estos datos, existen varias herramientas que pueden ayudar a entender causalidades (si pasa esto, esto otro es posible que pase después) o resiliencia (si pasta esto, es mejor intentar aumentar o disminuir esto otro para evitar mayores problemas). La diferencia aquí es que, por ejemplo, el método actual concluiría evitar comer carne roja, porque se ha identificado el proceso de base por el cual comer esto provoca una crisis. Esta misma observación de evitar carne roja, quizás sería posible si un grupo de personas con la enfermedad acumularan los datos suficientes para llegar un algoritmo detectara este patrón, sin entender siquiera la causalidad de la correlación (y adicionalmente sugerir esta hipótesis a los investigadores para que confirmen esta hipótesis).
Me ha sorprendido que excepto en un par de charlas, como la primera del síndrome de Dravet o la de RareConnect, se pone al paciente como sujeto pasivo, externalizando en buena medida el avance o la esperanza de mejora. Creo que se puede hacer mucho involucrando, y escuchando a los pacientes, no solo clínicamente, sino también a nivel de calidad de vida, o capturando conocimiento de lidiar con las situaciones que la familia vive. Esta, de hecho, es ya una función que veo es básica en la asociaciones como FEDER, pero cuya estandarización en plataformas de apoyo informatizadas es solo parcial.
Big Data como decía, no se centra en entender, sino ayudar a tomar decisiones, a encontrar patrones. Esto hace que sea especialmente bueno para encontrar, como ya se hace, correlaciones con mutaciones específicas, pero también para ver usos adicionales de medicinas ya existentes, como contó Jordi con DRUGS4RARE. Esto no es nuevo, de hecho, muchas medicinas encontraron nuevos usos de los originalmente pensados. La Viagra empezó como medicina para la presión arterial. La Talidomida, calmante y para mareos de embarazadas (fue un desastre creando malformaciones en fetos, pero hoy ha vuelto contra cáncer y lepra). El Litio se usa para tratamientos bipolares, y no se entiende muy bien por qué funciona… Incluso el Paracetamol, al parecer, no tiene un mecanismo de eficacia bien entendido.
Big Data puede eliminar algunas de la barreras que segmentan innecesariamente los pacientes. Por ejemplo, que el idioma no sea un problema a la hora de registrar información, traduciendo entre idiomas (como ya hace rareConnect) o directamente al HPO.
Una de las cosas que he escuchando muchas veces en los últimos meses, es que está llegando una oleada de diagnóstico computerizado basado en Aprendizaje de Máquinas. Estas herramientas están basadas en Big Data; en este caso pruebas médicas etiquetadas que sirven para entrenar los sistemas. Al parecer hacen falta alrededor de unos 2000 casos. Creo que sería extremadamente interesantes preparar datos para pilotos con empresa de diagnóstico computerizado. Por ejemplo Zebra, una de las empresas con la que me he reunido preparando esta charla, y incidentalmente ha anunciado ayer un coste 1$ por scan para detectar enfermedades.

Es fácil describir las promesas de Big Data cuando se trata de filtros de fotos o acelerar páginas web. Es muchísimo más difícil cuando los que escuchan esta charla tienen en casa un niño que sufre 20 ataques al día y no tiene o diagnóstico o prognosis clara. Espero que mi exposición pasando por muchos temas sirva como fuente de preguntas, de críticas, de ideas, de sugerencias… Ésta es justo mi intención, intentar traer más preguntas que respuestas, pero preguntas desde el conocimiento de lo efectivo y potente, y cómo Big Data ha resultado ser en otros campos. Es ahora, en la ronda de comentarios, y en lo que hagamos con esta información, cuando empieza lo interesante.

Mi agradecimiento a los coordinadores del Simposio Ana Ripoll y Eugenia Resmini, su gran equipo de apoyo, y los patrocinadores BIB, CIBERER, Obra Social la Caixa y la Fundación Ramón Areces. Así como por la paciencia a todos los que he preguntado antes y durante este Simposio.