Evaluando nuestras predicciones durante el Mundial de Rusia

Probabilidad de ganar el torno, a lo largo del Mundial

En junio construimos un modelo estadístico para predecir el Mundial. Publicamos el primer pronóstico de EL PAÍS antes de que arrancase el torneo y después fuimos dando predicciones con cada partido. Para cada selección estimábamos su probabilidad de ganar el torneo y alcanzar cada fase. Además publicamos una metodología completa (que es parte de la gracia en un proyecto así, porque los lectores pueden entender cómo funciona, pensar debilidades, mejoras, etc.)

¿Pero qué tal funcionó el modelo? Aquí contamos como hemos evaluado el modelo. No es un juicio definitivo, pero es un comienzo.

Una predicción confiable

El modelo hacía predicciones en forma de probabilidades, diciendo cosas como, “Brasil tiene un 16% de opciones de ganar el Mundial” o “Francia alcanza las semifinales con una probabilidad del 27%”. La primera pregunta es si esos pronósticos se cumplieron con la probabilidad prometida. A esto se le llama confiabilidad (reliability). Se dice que un modelo es confiable (o que está bien calibrado) si los eventos ocurren con la probabilidad predicha por el modelo. Imaginad un modelo de lluvia: estará bien calibrado si las veces que dijo que había un 60% de opciones de lluvia, efectivamente llovió el 60% (y no lo hizo en el 40% restante). Si nunca llovió el modelo está mal, pero también si llovió el 100% de las veces.

Los resultados dicen que nuestro modelo está bien calibrado. Los eventos con probabilidad entre 0% y 10% ocurrieron el 3% de las veces, por ejemplo, y aquellos con probabilidad 90–100% ocurrieron siempre:

Este gráfico muestra la curva de calibración (o confiabilidad) de nuestras predicciones del mundial. Para hacerlo hemos tomado las predicciones para ganar el torneo y alcanzar cada fase de cada equipo, en seis momentos distintos: antes del mundial, después de cada partido de grupos, antes de cuartos y antes de las semifinales. En total son 524 predicciones.

En este otro gráfico hemos desglosado los resultados para esos seis momentos.

La predicción inicial es la que podemos evaluar mejor porque tiene más muestra. Tiene buena pinta: los pronósticos de probabilidad 0–10% casi nunca ocurrieron, mientras que aquellos con probabilidad superior al 75% ocurrieron el 86% de las veces. Hicimos siete pronósticos con esa rotundidad, diciendo que Francia, Bélgica, Inglaterra, España, Argentina, Alemania y Brasil tenían cada uno una probabilidad superior al 75% de estar en octavos. De esos siete pronósticos se cumplieron todos excepto el de Alemania —que pinchó—, pero eso no era una sorpresa para el modelo… de hecho, lo “normal” hubiese sido fallar dos de esos pronósticos.

El modelo, en definitiva, parece bien calibrado. Esa es la característica más importante para un modelo público: sus pronósticos deben cumplirse con la probabilidad prometida. El modelo no prometió más precisión de la que tuvo. El modelo no era muy discriminante — no podía apuntar un favorito claro — , pero eso es algo que él mismo avisaba desde el principio, por eso el equipo con más opciones de ganar el mundial solo ganaba el 16% de las veces.

Brier scores: midiendo exactitud (accuracy)

Una forma simplista de evaluar la exactitud (“accuracy”) de un modelo probabilístico es tratarlo como si fuese determinista: si un evento tiene probabilidad superior al 50%, tomamos la predicción como “ocurrirá”, y si es inferior, como “no ocurrirá”. Así medido, nuestro modelo acertó con el 73% de los “ocurrirá” y con el 87% de los “no ocurrirá”.

Pero hay formas mejores de medir la exactitud de una predicción.

Una métrica habitual es el Brier Score. Un modelo es exacto si predice con 100% de confianza y acierta siempre (Brier Score =0); y es totalmente inexacto si hace predicciones al 100% de confianza y falla siempre (Brier Score = 2). En medio hay un universo de grises, según seas más cauto al predecir y aciertas más o menos. Nuestras predicciones obtienen un Brier Score de 0,199, que es bastante mejor que una predicción aleatoria. En la tabla comparamos seis predicciones diferentes.

La mejor predicción fueron las apuestas, tomadas de Betfair. Esto es algo previsible y que avisamos desde el principio en la metodología, “las apuestas son difíciles de batir”, dijimos. También lo hizo algo mejor el modelo de Five Thirty Eight, que es la referencia. Sin embargo, nuestro modelo fue más exacto que el ranking oficial de la FIFA o que los modelos matemáticos que publicaron grandes bancos como UBS o Goldman Sachs. En el blog Futbolmetrix hicieron una comparativa con más modelos y el nuestro quedó acabó 12 de 33. Todos los modelos batieron a la predicción aleatoria.

En resumen, nuestro modelo fue competitivo en “exactitud” y no lo hizo mucho peor que las apuestas. El mercado de apostadores es difícil de batir por dos razones. La primera es que agregan mucha información usando el juicio de miles de personas (los apostadores) y de expertos (que trabajan fijando las cuotas), pero además también usan modelos. Las casas de apuestas combinan modelo, expertos y expertos mirando modelos a la hora de fijar sus cuotas.

Por qué modelos y no apuestas

Surge a menudo una pregunta lógica: si las apuestas suelen ser más predictivas, ¿por qué usar modelos? En realidad, los modelos ofrecen muchas ventajas para un modelo público como el nuestro. Los modelos 1) son transparentes (puede decir como funciona), y 2) son explicables (puedo justificar, paso a paso, porque Brasil era favorito por delante de Francia o explicar todos los cambios de nuestras estimaciones). Pero, sobre todo, 3) los modelos pueden responder más preguntas que las apuestas. Puedo hacer simulaciones “what if…” y calcular los efectos de que un gol no se hubiese marcado. Puedo medir la importancia de los cruces o estimar si a un equipo le interesa perder un partido. Puedo, en definitiva, comparar la realidad con realidades alternativas y poner los resultados en números: ¿Como mejorarían las opciones de España si Messi o Cristiano jugasen en la selección? Son preguntas que un modelo puede intentar responder.

Hay, además, un propósito divulgativo. Hacer modelos estadísticos sobre fútbol es una excusa para hablar de matemáticas, probabilidades, programación o incertidumbre.


Nota sobre la robustez de este análisis. Las comparativas entre modelos son estadísticamente débiles. Solo tenemos datos de un mundial, y aunque hemos hecho cientos de predicciones, no son independientes (si tu modelo, por decir algo, subestimó a Bélgica, ese error se fue repitiendo en cada fase). En el caso de la calibración este problema es menor porque tenemos muchos datos anteriores. La mejor prueba de que nuestro modelo estaba bien calibrado la teníamos antes de empezar: usamos miles de partidos para ajustar el modelo y comprobamos que sus pronósticos (in-the-sample y por validación cruzada) eran confiables.

Metodología y datos. Recuerda que puedes leer la metodología. También puede descargar todas las predicciones para hacer los cálculos que quieras.