La idea más poderosa en Ciencia de Datos

Una solución rápida para separar pistas falsas de patrones útiles

Cassie Kozyrkov
Ciencia y Datos
8 min readJan 16, 2020

--

Traducido por Berenice Ruiz Eguino del original de Cassie Kozyrkov (Editado por Carlos Secada)

Si tomas un curso introductorio de estadística, aprenderás que un datapoint (punto de datos en español), puede ser usado para generar inspiración o para probar una teoría, pero nunca ambos. ¿Por qué no?

Los humanos son demasiado buenos para encontrar patrones en todo. Patrones reales, patrones falsos, lo que sea. Somos el tipo de criaturas que encontramos la cara de Elvis en una papa frita. Si estás tentado a equiparar patrones con ideas, recuerda que hay tres tipos de patrones de datos:

  • Patrones/hechos que existen en tu conjunto de datos y más allá de ellos.
  • Patrones/hechos que existen sólo en tu conjunto de datos.
  • Patrones/hechos que existen sólo en tu imaginación (apofenias).
Un patrón de datos puede existir (1) en todo el patrón de la población de interés, (2) sólo en la muestra, o (3) sólo en tu cabeza. Imagen: fuente.

¿Cuáles te son útiles? Depende de tus objetivos.

Inspiración

Si lo que buscas es inspiración pura, todos son fabulosos. Incluso la extraña apofenia (la tendencia humana a percibir erróneamente conexiones y significado entre cosas no relacionadas) puede hacer que fluyan tus jugos creativos. La creatividad no tiene respuestas correctas, así que todo lo que necesitas hacer es echar un vistazo a tus datos y divertirte con ellos. Como beneficio adicional, intenta no desperdiciar demasiado tiempo (tuyo o de tus stakeholders — partes interesadas en español) en el camino.

Hechos

Cuando tu gobierno quiere cobrarte impuestos, no le importa nada fuera de los patrones de tus datos financieros del año. Hay que tomar una decisión basada en hechos sobre lo que debes y la forma de hacerlo es analizar los datos del año pasado. En otras palabras, mirar los datos y aplicar una fórmula. Lo que se requiere es un análisis descriptivo puro que se apegue a los datos disponibles. Cualquiera de los dos primeros tipos de patrones es bueno para eso.

Análisis descriptivo que se apega a los datos disponibles.

De esto se trata la estadísticala ciencia de cambiar tu opinión bajo la incertidumbre — El juego consiste en dar un salto como Ícaro más allá de lo que sabes … sin terminar dándote de cara contra el piso.

Ese es el gran desafío en el corazón de la ciencia de datos: cómo no terminar *menos* informado como resultado de mirar datos.

Antes de lanzarte de ese acantilado, es mejor que esperes que los patrones que encontraste en tu visión parcial de la realidad realmente funcionen más allá de ellos mismos. En otras palabras, los patrones deben generalizarse para que te sean útiles.

De los tres varietales, solo el primer (generalizable) tipo de patrón es seguro, si estás tomando decisiones bajo incertidumbre. Desafortunadamente, también encontrarás otros tipos de patrones en tus datos, ese es el gran desafío central la ciencia de datos: cómo no terminar menos informado como resultado de mirar datos.

Generalización

Si crees que extraer patrones inútiles de datos es un privilegio puramente humano, ¡adivina de nuevo! Las máquinas pueden automatizar la misma tontería si no tienes cuidado.

El objetivo del Machine Learning (ML) / Inteligencia Artificial (IA) es generalizar correctamente a nuevas situaciones.

Machine learning es un enfoque para tomar muchas decisiones similares que involucran encontrar algorítmicamente patrones en tus datos y usarlos para reaccionar correctamente a datos nuevos. En la jerga de ML/IA, la generalización se refiere a la habilidad de tu modelo para funcionar bien en datos que no se han visto antes. ¿De qué sirve una receta basada en patrones que sólo tiene éxito en lo viejo? Puedes usar una tabla de búsqueda para eso. El objetivo de ML/IA es generalizar correctamente a nuevas situaciones.

Es por eso que el primer tipo de patrón en nuestra lista es el único tipo que es bueno para machine learning. Esa es la parte que es señal, el resto es sólo ruido (pistas rojas que existen solo en tus datos anteriores y te distraen de crear un modelo generalizable).

Señal: Patrones que existen en tu conjunto de datos y más allá.

Ruido: Patrones que existen sólo en tu conjunto de datos.

De hecho, obtener una solución que maneje el ruido antiguo en lugar de los datos nuevos, es lo que significa el término sobreajuste en machine learning. (Pronunciamos esa palabra con el mismo tono que utilizarías con tu improperio favorito.) Casi todo lo que hacemos en machine learning es a favor de evitar el sobreajuste.

Entonces, qué tipo de patrón es *este* ?

Asumiendo que el patrón que tú (o tu máquina) extrajiste de tus datos existe fuera de tu imaginación, ¿de qué tipo es? Es el fenómeno real que existe en tu población de interés (“señal”) o una idiosincrasia de tu conjunto de datos actual (“ruido”). ¿Cómo puedes saber qué tipo de patrón encontraste durante tu incursión en un conjunto de datos?

Si has mirado todos tus datos disponibles, no puedes. Estás atrapado y no hay forma de saber si tu patrón existe en otro lugar. Toda la retórica de las pruebas de hipótesis estadísticas depende de la sorpresa, y es de mal gusto pretender estar sorprendido por un patrón que tú ya sabes que está en tus datos. (Eso es esencialmente p-hacking o pesca de datos).

Es un poco como ver la forma de un conejo en las nubes y luego probar si todas las nubes parecen conejos … usando la misma nube. Espero que te des cuenta que vas a necesitar algunas nubes nuevas para probar tu teoría.

Cualquier punto de datos que uses para inspirar una teoría o pregunta no puede usarse para probar esa misma teoría.

¿Qué podrías haber hecho si supieras que sólo tenías acceso a una imagen de una nube? Meditar encerrado dentro de un armario, eso mismo. Haz tu pregunta antes de mirar los datos.

Las matemáticas nunca son un contra-ataque al sentido común básico.

Somos guiados a la conclusión más infeliz aquí. Si usas tu conjunto de datos en tu búsqueda de inspiración, no puedes usarlo de nuevo para probar rigurosamente la teoría que lo inspiró (no importa qué tanta “matemagia” saques de repente, ya que las matemáticas nunca son un contragolpe al sentido común básico).

Opciones difíciles

¡Esto significa que debes elegir! Si sólo tienes un conjunto de datos, estarás forzado a preguntarte a tí mismo: “¿medito en un armario, configuro todos mis supuestos de prueba estadísticos, y luego cuidadosamente adopto un enfoque riesgoso, de modo que yo pueda tomarme en serio a mí mismo? ” O simplemente extraigo los datos en busca de inspiración, pero estoy de acuerdo en que podría estar engañándome a mí mismo y recuerdo usar frases como “yo siento” o “esto inspira” o “no estoy segura”? Difícil elección.

O hay alguna manera de que tengas tu pastel y te lo comas también? Bueno, el problema aquí es que tú tienes sólo un conjunto de datos y necesitas más de uno. Si tienes muchos datos, tengo un truco para tí. Vuela. Tu. Imaginación.

Un truco raro

Para ganar en Ciencia de Datos, simplemente convierte un conjunto de datos en (al menos) dos, a través de dividir tus datos. Luego, usa uno como inspiración y el otro para pruebas rigurosas. Si el patrón que te inspiró en primer lugar, existe también en los datos que no tuvieron la oportunidad de influir en tus opiniones, ese es un voto más prometedor, a favor de que el patrón sea algo general en el gran mar desde donde sacas tus datos.

Si el mismo fenómeno existe en ambos conjuntos de datos, tal vez sea un fenómeno general que también existe donde sea que provengan esos conjuntos de datos.

DTMD!

Si no vale la pena vivir una vida no examinada, entonces aquí tienes las cuatro palabras para sobrevivir: Divide Tus Condenados Datos.

El mundo sería mejor si cada uno dividiera sus datos. Tendríamos mejores respuestas (de la estadística) a mejores preguntas (de la analítica). La única razón por la que la gente no trata de dividir los datos como un hábito obligatorio es que en el siglo anterior era un lujo que muy pocos podían permitirse; los conjuntos de datos eran tan pequeños que si intentabas dividirlos entonces no quedaría nada. (Aprende más acerca de la historia de ciencia de datos aquí.)

Divide tus datos en un conjunto de datos exploratorios que todos puedan rastrear en busca de inspiración y un conjunto de datos de prueba que después serán utilizados por expertos para la confirmación rigurosa de cualquier “idea” encontrada durante la fase exploratoria.

Algunos proyectos aún tienen ese problema hoy, especialmente en la investigación médica (yo solía estar en neurociencia, por lo que tengo mucho respeto por lo difícil que es trabajar con conjuntos de datos pequeños) pero muchos de ustedes tienen tantos datos que necesitan contratar ingenieros sólo para moverlos… ¡¿cuál es tu excusa?! No seas tacaño, divide tus datos.

Si no tienes el hábito de dividir tus datos, podrías estancarte en el siglo XX.

Si has obtenido datos en grandes cantidades pero estás viendo conjuntos de datos no divididos, tu vecindad está sufriendo de una perspectiva anticuada. Todos se sintieron cómodos con la perspectiva arcaica y olvidaron seguir adelante con los tiempos.

Machine learning es el resultado de la división de datos

Al final del día, la idea aquí es muy simple. Usa un conjunto de datos para formar una teoría, toma tus decisiones y luego realiza el truco de magia para demostrar que sabes de lo que estás hablando en un conjunto de datos completamente nuevo.

La división de datos es la solución rápida más simple para una adecuada cultura de datos.

Así es como te mantienes a salvo en estadística y es así como también evitas que te coman vivo al sobreajustarte en ML/IA. De hecho, la historia de machine learning es una historia de la división de datos. (Explico el por qué en Machine Learning es Inspiración Automatizada.)

Cómo usar la mejor idea en ciencia de datos

Para tomar ventaja de la mejor idea en ciencia de datos, todo lo que debes hacer es asegurarte de mantener algunos datos de prueba fuera del alcance de miradas indiscretas, luego deja que tus analistas se vuelvan locos con el resto.

Para poder ganar en ciencia de datos, simplemente convierte un conjunto de datos en (al menos) dos, mediante la división de tus datos.

Cuando creas que te han entregado una idea procesable que va más allá de la información que exploraron, utiliza tu reserva secreta de datos de prueba para para verificar sus conclusiones. ¡Tan simple como eso!

--

--

Cassie Kozyrkov
Ciencia y Datos

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita