Re-pensando rápido y despacio en ciencia de datos

¿Cómo hacer experimentos ágiles en ciencia de datos?

Cassie Kozyrkov
Ciencia y Datos
7 min readJan 15, 2021

--

Traducido por Juan Carlos Enciso del original por Cassie Kozyrkov (Editado por Carlos Secada)

Siempre ha existido una tensión permanente entre la planeación de largo plazo y la flexibilidad del corto plazo. La metodología en ciencia de datos no es ajena a esta realidad. ¿Es posible que equipos que trabajan en desarrollo de producto puedan conciliar la práctica de iteración rápida con ese animal gigante y lento del proceso de investigación profunda? O a lo mejor, ¿se verán obligados a escoger entre el uno o el otro?

Iteraciones en metodología ágil o investigaciones exhaustivas planeadas: ¿Puede la ciencia de datos disfrutar de estas dos metodologías o debe decidirse por la una o la otra?

Tomemos a BrainQ. como caso de estudio. Alerta de Spoiler: no solamente es posible utilizar enfoques lentos y rápidos cuando se realizan experimentos en ciencia de datos, sino BrainQ ha demostrado que se puede inclusive llegar a desarrollar una hoja de ruta que tu equipo pueda seguir.

La misión de BrainQ es tratar los desórdenes neurológicos, con tecnologías basadas en inteligencia artificial. Si acaso estabas a punto de disfrutar de nuestra discusión acerca de agilidad, el estudio de este caso te va frenar en seco, estamos hablando de la madre de todos los gigantes: ciencia de datos para la investigación médica.

La ciencia de datos tradicional ha mostrado ser poco efectiva en muchos casos. La mayoría de los profesionales en la materia coinciden en afirmar que si depositaran toda su confianza en la tradicional y siempre confiable estadística inferencial, se verían obligados a planear y repensar constantemente en el futuro. Los cursos básicos de estadística te enseñan que, como antesala al inicio de tu proceso de recolección de datos, debes establecer una hipótesis, unos supuestos estadísticos y las metodologías de análisis de datos a utilizar. Además advierten: piensa y planea muy bien todo lo que vayas a hacer y ¡ni se te ocurra iterar!

La investigación médica es un área especialmente compleja a la hora de aplicar prácticas ágiles en la experimentación con ciencia de datos. El caso de estudio de BrainQ en electroencefalogramas ha demostrado que si se puede realizar, lo cual es una buena noticia para los emprendimientos cuyas industrias no son tan reguladas.

Cada vez que agregas así sea una pizca de investigación médica, todo se vuelve más lento, toda vez que el proceso se ve envuelto en el lento proceso de coordinación de ensayos clínicos y aprobación por parte de entes reguladores. Emplear metodologías ágiles sería lo ideal (y que los procesos sean divididos en componentes pequeños, predecibles e iterables), pero ¿cómo adoptar este tipo de enfoque en investigaciones médicas profundas?

La ciencia de datos se presta para la exploración y el rigor. Sin embargo, a veces se vuelve complicado hacer las dos cosas al mismo tiempo.

El secreto para superar los obstáculos anteriormente descritos está en adoptar un enfoque de dos golpes seguidos. La ciencia de datos se presta para la exploración y el rigor, aunque no siempre se pueda hacer las dos cosas al mismo tiempo. Ahora bien, pasa y sucede que las mejoras prácticas en ciencia de datos para explorar y hacer el triaje de lo verdaderamente relevante, se basan en metodologías ágiles. ¡No todo tiene que ser hecho con cuidado y de manera lenta!

Corrigiendo una mentalidad equivocada

Lo primero que hay que hacer es cambiar la mentalidad adquirida en cursos de estadística y de ciencia de datos.El típico examen universitario de estadística requiere que los estudiantes de primeros años prueben una serie de hipótesis que están acompañadas por unos supuestos escritos en jerga matemática. El secreto para “sacarla del estadio”, como se dice en béisbol, es probar estas hipótesis de manera rigurosa y apropiada.

Desde que tomé mi primer examen en el curso de Estadística Básica hasta que presenté los exámenes calificativos para postular a mi candidatura de doctorado, el formato que utilicé fue fundamentalmente el mismo. Este tipo de enseñanzas son el grueso de nuestro entrenamiento así que a menudo es la parte que los estadísticos recién graduados más atesoran.

¿Alguna vez has notado que las hipótesis están ahí todo el tiempo?

Alguna vez has notado que las hipótesis están ahí todo el tiempo -cuidadosamente planeadas por el profesor- y rara vez los estudiantes tienen que cuestionar su génesis? Una vez que la pregunta sagrada ha sido establecida, tenemos que responder con toda la seriedad del caso. Ahora démosle la vuelta a las cosas: tú debes crear las hipótesis y los supuestos. ¿Cómo haces eso?

Es tiempo de pensar acerca del origen de ese pensamiento rígido que generalmente tienen los estadísticos y científicos de datos con entrenamiento clásico. ¿Tendrá algo que ver la educación estadística tradicional?

Una opción es aplicar lo que aprendiste en clase. Medita en un lugar oscuro y después propón una hipótesis y unos supuestos antes de empezar el experimento. Luego diseña la estrategia para la prueba estadística y la recolección de datos como antesala a obtener cualquier dato. Alista todo para empezar y haz todo bien en un solo intento.

¿Suena bien, no? ¡Mentira! Se nos olvidó ser humildes. Lo más probable es que hayamos cometido un error cuando diseñamos el experimento. Una de las lecciones más valiosas que he aprendido después de una década de experiencia en este campo es la siguiente: es muy difícil pensar en todo por adelantado.

Es muy difícil pensar en todo por adelantado.

Es muy difícil pensar en todo por adelantado. Si nos ceñimos a un enfoque basado en planear todo con anticipación y seguir el plan al pie de de la letra, vamos a terminar con una solución perfecta para la pregunta equivocada (también conocido como Error Tipo III en estadística).

Lo que nunca aclaran en el aula de clase es que todo puede desplomarse si uno no se las arregla para plantear la pregunta de investigación de manera adecuada. Esas lecciones de vida son difíciles de simular y tu cabeza puede estallar cuando te imaginas no imaginándote todo lo que se te olvidó imaginar.

Permiso para volvernos ágiles

Bueno, y si este confortable enfoque aprendido durante el entrenamiento en ciencia de datos no funciona, ¿qué hacer? Por supuesto, debes agregarle un poco de pensamiento ágil. Pero aquí va el truco: permítete ser poco riguroso al principio, y quema parte de tu tiempo, energía, y datos para poder obtener luego una buena ruta.

Aquí va el truco mental: permite que tu enfoque sea poco riguroso al principio para poder obtener luego una buena ruta.

¿Cómo hacer esto? Permítete pasar por etapas en donde el único resultado deseado sea pulir el diseño del mejor enfoque posible. Esto quiere decir que es muy recomendable comenzar con lo siguiente:

  • Datos con baja calidad: empieza con muestras pequeñas, datos sintéticos y un muestreo no aleatorio, para ganar entendimiento acerca del proceso de recolección de datos.
  • Modelos básicos e imperfectos: busca entender cómo se puede aplicar la ley del mínimo esfuerzo. Empieza por usar algoritmos de baja calidad, cuyo objetivo primordial no es proporcionar una solución óptima sino servir como un punto de referencia.
  • Comparaciones múltiples: en lugar de casarte con una única hipótesis, siéntete libre de concentrar toda tu energía en encontrar inspiración en los datos. Este ejercicio te va permitir encontrar señales sobre las cuales vas a basar tu enfoque final. Fija fechas límites y establece hitos para tu producto mínimo viable (PMV) con el fin de evitar caer en la trampa de analizar, amasar y pulir de manera indefinida.

Esta recomendación rompe prácticamente con todas las reglas aprendidas en clase.

Si el estadístico que hay en ti no está gritando a estas alturas del partido, ¡admiro tu calma!. Esta recomendación rompe prácticamente con todas las reglas aprendidas en clase. ¿Por qué estoy entonces promoviendo estos “malos hábitos”? Porque importa mucho la fase del proyecto en que te encuentres. Estoy 100% de acuerdo en seguir la teoría tradicional en las fases posteriores del proyecto, pero las etapas tempranas del mismo siguen unas reglas diferentes.

Es importante seguir los siguientes principios para evitar errores de novato:

  • No tomes muy en serio los hallazgos que realices en fases tempranas.
  • Recopila un nuevo y limpio conjunto de datos cuando estés listo para la versión final de tu modelo.

Estudios piloto en ciencia de datos

Puedes utilizar las iteraciones exploratorias iniciales para informar el enfoque que eventualmente vas a escoger (vas a tomar este enfoque con la misma seriedad con la que el mejor de los estadísticos lo haría). El secreto está en utilizar la mejor de las habilidades exploratorias para entender lo que vale la pena retener a lo largo del camino. Si estás acostumbrado a la rigidez de la estadística inferencial tradicional, es hora de redescubrir los beneficios de los estudios piloto en ciencias y encontrar la manera de implementar esta técnica en ciencia de datos.

La mejor fuente e inspiración para encontrar una versión definitiva a prueba de balas, es recolectar todas las lecciones aprendidas en el camino hacia el PMV.

Esta es la estrategia que BrainQ adoptó y ha funcionado a las mil maravillas para ellos. Si quieres saber más sobre el proceso de BrainQ, te recomiendo que leas el caso de estudio completo disponible en The Lever, una fuente con enfoque técnico sobre Inteligencia Artificial aplicada para startups, operada por Google Developers Launchpad, y co-editada por Peter Norvig y por mi.

¿Estás buscando una guía detallada que te ayude a iniciar un proyecto de inteligencia artificial/Machine Learning? Tranquilo, te tengo la solución. ¡Disfrútalo!

Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.

--

--

Cassie Kozyrkov
Ciencia y Datos

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita