Inferencia Estadística en una frase

Cassie Kozyrkov
Ciencia y Datos
Published in
10 min readMar 9, 2020

Traducido por Ale Koretzky del original por Cassie Kozyrkov (editado por Carlos Secada).

Toda prueba de hipótesis, desde el curso básico de Estadística hasta el examen de doctorado más difícil, se reduce a una sola frase. Fue la gran revelación de los años 20 la que dio origen a la mayoría de los trabajos en Estadística que pueden encontrarse hoy en dia. Desde allí, se puede derivar la disciplina entera, por lo que si quieres entender Estadística, enfócate en esta idea y medita en ella cada dia.

R.A. Fisher (1890–1962, British) es ampliamente reconocido como el padre de la Estadística moderna. Si quieres señalar a alguien por el contenido de este artículo, aquí está el culpable.

¡Suficiente introducción! He aqui la frase mágica:

“¿La evidencia que hemos recolectado, deja en ridículo a nuestra hipótesis nula?”

No estoy bromeando; no hay más que ésto. La prueba de hipótesis clásica es simplemente ésto, una y otra vez. Si eres de los que quedaron con cicatrices después de su primer curso de Estadística, esta definición tan reducida puede sonar un poco desalentadora. O quizás eres de los que aún está intentando entender el abc. Así que veamos un ejemplo simple. Si el ejemplo no es lo suficientemente simple, puedes empezar por aquí.

Prueba de Hipótesis sobre extraterrestres

Acabas de ser seleccionado para la aventura más increíble: buscar vida extraterrestre en otros planetas. Desafortunadamente, como en todo trabajo ideal, hay un… supervisor. Y este no muy amable supervisor te ha dado una interfaz de usuario bastante pobre. solo tiene dos botones: SÍ y NO.

Este es todo tu panel de control. “SI”, significa que existe vida extraterrestre en el lugar y “NO”, que no existe vida en el lugar. No hay manera de decir “quizás” o de agregar comentarios.

Como si ésto fuera poco, tu supervisor no te ha dado suficiente presupuesto para explorar la totalidad de un planeta. Lo único que puedes hacer es aterrizar, elegir una dirección, comenzar a caminar hasta que tus reservas de oxígeno están en riesgo y regresar inmediatamente para oprimir uno de los dos botones. Como solo estarás explorando planetas grandes y no tendrás suficiente oxígeno como para cubrir cada centímetro de la superficie, no podrás evitar la incertidumbre: es decir, existe la posibilidad de que termines no sabiendo cuál es la verdadera respuesta.

Paso 1: ¿Cuál es la acción por defecto?

Toda prueba de hipótesis empieza por lo mismo. El “decision-maker” (quien toma las decisiones), selecciona una acción por defecto. Esta es la acción que uno se compromete a ejecutar si no examinamos ninguna evidencia. En otras palabras y volviendo al ejemplo, si ni siquiera aterrizas en el planeta a explorar, ¿oprimirías SI o NO?

Esta pregunta no tiene una única respuesta correcta. Es una pregunta de negocios que depende de las políticas de tu compañía de exploración espacial, así que a través del ejercicio, examinaremos ambas posibles acciones. Si eres como la mayoría de los lectores, eligirás el botón NO como acción por defecto, así que empecemos por esa.

Acción por defecto: presionar el botón NO

Paso 2: ¿Cuál es la acción alternativa?

… y aquí es donde creías que la Estadística se pondría difícil. Pero no, la acción alternativa es simplemente lo que harás si no tomas la acción por defecto.

Accion alternativa: presionar el botón SI

Si lees mi explicación sobre cómo funciona todo esto, recordarás que la única manera de que elijas presionar el botón SI, es si la evidencia te hace sentir estúpida/o al considerar oprimir el botón NO.

Paso 3: ¿Cuál es la hipótesis nula?

Acabas de aterrizar en un planeta y te preguntas, “Si supiera todo acerca de este planeta, ¿que escenario justificaría presionar el botón NO”? Que no haya vida extraterrestre en este planeta. ¡Bingo! Esa es la hipótesis nula (H0)

H0: No hay vida extraterrestre en este planeta

Paso 4: ¿Cuál es la hipótesis alternativa?

La hipótesis alternativa (H1) es todo lo que es verdadero cuando la hipótesis nula es falsa.

H0: No hay vida extraterrestre en este planeta

H1: Hay vida extraterrestre en este planeta

¡Listo! Ya tienes tus hipótesis en forma para empezar a recolectar y analizar algunos datos.

Recolectando datos

Como persona rigurosa que eres, no irás simplemente sobrevolando planetas y presionando el botón NO. Aterrizas tu nave, sales de la misma, y comienzas a caminar en alguna dirección por 3 miserables horas para luego volver. A través de toda esta caminata, no has observado ningún extraterrestre…

Estadistica: 0 extraterrestres

¿Qué hemos aprendido que sea de interés?

Cuando estoy enseñando esto en una clase, la respuesta típica es, “No pudimos ver ningún extraterrestre durante esta exploración de 3 horas”. Esta es una respuesta sutilmente incorrecta por la forma en la que definimos nuestro proceso de toma de decisiones.

La forma en que definimos nuestro proceso de toma de decisiones es importante. No todas las decisiones se adaptan al proceso que se enseña en Estadística básica.

Cuando nos meternos en Estadística clásica, nos comprometemos a un contrato legal que dice que solo la población es de interés. Eso representa la superficie total del planeta, no esta pequeña muestra producto de nuestra caminata de 3 horas.

Muestra estadistica: 0 extraterrestres durante la caminata de 3 horas

Parámetro de la población: ¿¿?? extraterrestres en todo el planeta

Si estuviéramos haciendo Analítica, probablemente estaríamos contentos por este resultado observado, pero no estamos aquí para eso. Estamos haciendo Estadística, con lo cual, cualquier cosa que no me informe acerca del planeta completo es aburrido o irrelevante por definición. No podemos decir si no hemos visto extraterrestres ya sea porque no existen en el planeta o porque se encuentran bajo esa otra roca que aún no hemos explorado. No tenemos manera de distinguir entre estas dos posibilidades. Entonces, intentemos nuevamente. La respuesta es una sola palabra. ¿Qué hemos aprendido que sea de interés?

Nada. No hemos aprendido nada interesante.

Genial. ¿Puedes ver lo que ha pasado aquí?

Acabamos de analizar datos y hemos (¡correctamente!) aprendido nada más allá de los datos que tenemos. ¿Con cuánta frecuencia nos permitimos esto? Repite conmigo: “No he aprendido nada y ¡estoy orgullosa/o de ello!”

Deberías desarrollar el hábito de no aprender nada más seguido, ya que si insistes en aprender algo más allá de tus datos cada vez que pruebas tus hipótesis, aprenderás algo estúpido.

Cuando te encuentras aplicando el tipo de inferencia estadística que involucra intervalos de confianza y valores p, no aprender nada es algo muy bueno.

¡Esto no es Analítica!

Si esto te molesta, respira profundo. Puede que estés pensando como un analista que se está aventurando en el territorio de la Estadística.

El área de Analítica se preocupa por lo que está presente, mientras que la Estadística se preocupa por lo que no lo está..

Cualquiera está calificado para hacer Analítica: simplemente observa tu set de datos y sumariza lo que ves. “Estos son los hechos en esta planilla. No se han observado extraterrestres”. En Analítica, siempre estarás aprendiendo algo interesante, ya que lo que constituye interesante está en los datos que tienes frente a tus narices. La analitica tiene solo una regla de oro: enfócate en los datos que tienes y no vayas más allá. En este espacio seguro y sin riesgos, la excelencia se mide por cuán rápido puedes procesar los datos que tienes. Lo bueno es que no puedes hacer daño alguno… al menos que accidentalmente te metas en Estadística. Cosas misteriosas pueden suceder cuando te aventuras mas allá de tus datos.

Mirar mas allá de los datos presentes en tu planilla sin salir lastimado requiere una mentalidad diferente, es por eso que la Estadística es algo más complicada. ¿Cómo describimos el escenario de esos tipos que van por la vida enseñando Matemática sin entender su filosofía? ¡Un peligro para la sociedad!

Cuando uno está batallando en territorio desconocido, los detalles importan.

Algunas personas creen que cada vez que están analizando datos, el universo les debe algo más allá de los datos. Si nuestra expectativa es lograr un gran salto desde lo que sabemos a lo que no sabemos, ¿por qué debería ser fácil?

Si insistes en aprender algo cada vez que pruebas tus hipótesis, aprenderás algo estúpido.

Cuando estés haciendo Estadística, acepta la posibilidad de no aprender nada. (¿comenzando por este artículo?)

El corazón que late detrás de todo

La Estadística es la ciencia de cambiar tu opinión frente a la incertidumbre. Cambiaremos nuestra opinión si nos sentimos ridículos al insistir en lo que nuestra evidencia se refiere como un “camino tonto”, razón por la cual toda prueba de hipótesis se reduce a la misma pregunta clave:

“¿La evidencia que hemos recolectado, deja en ridículo a nuestra hipótesis nula?”

Como tarea, ahora puedes ir y derivar la mayoría de las estadísticas. (O puedes seguir leyendo, como tu prefieras)

Analizando los datos sobre extraterrestres

No hemos visto ningún extraterrestre durante nuestra caminata y nuestra hipótesis nula es que no hay extraterrestres en el planeta. ¿Cuál es nuestra respuesta a la gran pregunta de prueba? ¿La evidencia deja en ridículo a nuestra hipótesis nula? Para nada. El que no haya extraterrestres en la muestra es completamente consistente con que no haya extraterrestres en la población entera.

Ahora imagina si en lugar de no haber visto ningún extraterrestre durante nuestra caminata, hubiésemos visto a esta pequeña criatura verde.

Suponiendo que eso es un extraterrestre (y no un pepinillo, ¿qué hemos aprendido? Si te dijera que he visto a este extraterrestre y aún así estoy considerando la posibilidad de que no existen extraterrestres en el planeta, me dirias que soy un idiota.

¡Esta evidencia si deja a mi hipotesis en ridículo! ¿Qué hacemos cuando la evidencia deja a cierta hipótesis en ridículo? No nos apegamos a ella y ¡simplemente la descartamos!

Como siempre diseñamos nuestras dos hipótesis de forma tal que cubran todas las posibilidades, rechazar una nos fuerza a que aceptemos la otra. Como buenos Frecuentistas que somos, comenzamos sin opinión alguna acerca del planeta. Si, contamos con una acción favorita, pero no necesitamos opiniones para eso. Los principiantes tienden a confundirse en la diferencia entre entender botones (acciones) y entender planetas (hipótesis), pero tú no, ¿cierto?

¿Te sientes ridículo? ¡Rechaza!

Si nuestra evidencia nos hace responder “SÍ” a nuestra gran pregunta de prueba, entonces rechazamos esta ridícula hipótesis y la conclusión pasa a estar a favor de la alternativa. Ahora nos sentimos ridículos sobre tomar la acción por defecto, por lo cual nos cambiamos a la acción alternativa y presionamos SI. Así que hemos adquirido nuevo conocimiento acerca del planeta entero: ¡sí hay vida en él!

¿No te sientes ridículo? Aprende nada.

¿Qué pasa en el escenario en que respondimos “no” a nuestra pregunta de prueba? En el curso de estadística básica, cuando eso sucede, te enseñan a escribir un párrafo algo complejo. (“Hemos fallado en rechazar la hipótesis nula y concluimos en que no hay suficiente evidencia estadística para apoyar la existencia de vida extraterrestre en este planeta.”) Estoy convencida de que el único propósito de esta expresión es hacerle la vida difícil a los estudiantes. Siempre les he permitido a mis estudiantes de grado escribirlo de esta forma: “no hemos aprendido nada interesante”.

Felicitaciones, ¡no has aprendido nada!

Aprender nada puede parecer una tragedia. Pusimos todo este esfuerzo para recolectar y analizar nuestros datos… ¿y qué obtuvimos al final? ¿¡Nada!? Antes de largarse a llorar, recuerda que no vinimos aquí para saber cosas. Vinimos aquí para tomar decisiones y el objetivo último es la elección de una acción, no el conocimiento. Estamos aquí para presionar un botón, ¡punto!

Cuando se trata de toma de decisiones, este esquema es bastante robusto. Nuestra acción por defecto es nuestra póliza de seguro, la cual nos dice que está bien no aprender nada. La misma nos da un contrato que dice, “si no sé nada, esto es lo que haré el respecto”.

Al entrar en este juego de inferencia, hemos declarado que no tenemos problema en tomar la acción por defecto bajo completa ignorancia… si no es el caso, no deberíamos estar en Estadística. Nada de esto tiene sentido sin una acción por defecto.

Nuestra acción por defecto era presionar el botón NO, así que eso es lo que hacemos cuando no logremos rechazar nuestra hipótesis nula. Tomamos la acción por defecto porque no hay razón para cambiar de opinión. ¿Es la acción correcta? ¡No lo sé! Pero por lo menos hemos hecho un esfuerzo honesto para poder salir de esa acción y ahora podemos hacer lo que teníamos planeado teniendo la conciencia tranquila.

No poder rechazar la hipótesis nula no necesariamente significa que no creamos que haya extraterrestres en tal planeta. Tranquilamente, podemos pensar que están allí, justo detrás de esa formación de rocas aún no explorada. Seríamos tontos en concluir que no están allí simplemente porque no los hemos encontrado. Si invierto 5 minutos en buscar mis llaves sin éxito, no significa que no estén en mi apartamento. Significa que no sé dónde están. Esa es la diferencia. (¿tu intuición te está incomodando? Entonces lee esto.)

¿No encuentras razón para cambiar de opinión? Procede con la acción por defecto como estaba planeado. ¿Es la acción correcta? ¯\_(ツ)_/¯ Bienvenido a la incertidumbre.

Para resumir: el juego de la prueba de hipótesis se trata de determinar si la evidencia que hemos recolectado deja en ridículo a nuestra hipótesis nula. Todo se trata de cómo nos sentimos acerca de cambiar de opinión en presencia de evidencia.

Para ver cuál sería la diferencia en un universo paralelo donde la acción por defecto es SI en lugar de NO, continúa leyendo aquí. (pista: ¡todo cambia!)

Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.

--

--

Cassie Kozyrkov
Ciencia y Datos

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita