
Uso práctico de analytics
En un post anterior introduje algunas estadísticas que se utilizan para ver el rendimiento del equipo, y para de manera directa o a través de otros cálculos más complejos predecir cual será el rendimiento a futuro de un equipo. También sirven para comparar con momentos anteriores e intentar ver si hubo cambios.
Breve repaso:
- Total Shot Ratio(TSR): o en español “ratio total de remates”. Proporción de remates que el equipo A hizo sobre el total de remates durante todos sus partidos disputados;
- Total Shot on Target Ratio(TSoTR):”ratio total de remates al arco”. Idéntico al TSR pero solo considerando remates dirigidos a la portería;
- Goal Ratio(GR): “ratio de goles”. Como los anteriores pero utilizando goles.
De todos estos índices a la larga, y teniendo los datos del todo el campeonato la que mejor se ajustaba a una progresión lineal (o sea a más puntos conseguidos la estadística crecía de igual manera) era GR. Para confirmarlo me tome el trabajo de ver si se ajustaba de igual manera en este campeonato y en anteriores. Para darle un corte tome solo los torneos cortos desde 1994 porque irme más para atrás me generaría mucho trabajo y la vagancia me puede…

Pude confirmar que lo de GR no es algo que se dio solo en este torneo, pasa en todos y cada uno. El R² es menor debido a que esta vez se utilizan más de 900 datos para calcularlo contra los 30 de la anterior vez. Igualmente sigue siendo alto y muestra una gran correlación de los datos. Y es bastante lógico: si un equipo convierte un mayor porcentaje de goles que sus rivales es probable que sume mayor cantidad de puntos y con ello que termine en mejores posiciones en la tabla final.
Sin embargo me seguía quedando la duda de porque TSR/TSoTR eran utilizados en otras ligas y en Argentina dieron tan malos resultados en cuanto a su relación con los puntos finales. Por ello decidí hacer un muestreo de la siguiente manera:
- Tomar 6 equipos del último torneo. San Lorenzo, Rosario Central, Aldosivi, Olimpo, Sarmiento y Crucero del Norte(gracias al amigo @ElMarto_ por seleccionarlos);
- Utilizar las fórmulas que conseguí anteriormente con las cuales teniendo un valor (GR,TSR,etc) se puede conseguir el número de puntos finales esperados;
- Medir que valor nos da como resultado con cada formula en la fecha 10, la 20 y la 30;
- Ver que diferencia promedio midiendo los puntos finales esperados contra los reales.
Además de las 3 estadísticas anteriores también agregue Diferencia de Gol para tener una medición que no sea un ratio y para comparar con GR y ver si existen diferencias.
Mostrarles todos el proceso punto por punto seria muy aburrido y por eso decidí solo dejar el ultimo punto. Si alguno esta interesado en los cálculos les paso el excel con todos los datos.

Queda demostrado que en la Fecha 30 el indicador que mejor se relaciona con los puntos obtenidos es GR, pero lo interesante es lo que pasa en los otros dos momentos de calculo. Utilizando los datos de la Fecha 10 y la 20 el cálculo da mejores resultados utilizando TSoTR.
Por si no se entiende en esa imagen se muestra la diferencia promedio que cada medición a esa altura del campeonato. Por ejemplo: en la fecha 10 TSoTR daba un valor final de 59.24 puntos para Rosario Central, cuyos puntos finales reales fueron 59. Pero en cambio para Crucero daba 25.66 contra 14. El promedio de diferencia, tomando solo 6 equipos, fue de 5.67 puntos lo cual no es malo si se tiene en cuenta que se esta calculando a la fecha 10,o sea solo se llevaba disputado un tercio del campeonato.
Siempre hay que tener en cuenta que un numero sin contexto no sirve mas que como guía general. En este caso los datos de remates al arco, con los que se calcula el TSoTR, estaban influidos por varios factores que cambiaron hacia el final del campeonato. Se pueden mencionar, solo de manera enunciativa, lesiones, incorporaciones o salidas de jugadores en el mercado de pases, etcétera. Además hay que nombrar la dificultad del fixture y el efecto de jugar o no copas internacionales y como al quedar afuera de ellas hay que enfocarse mas en el torneo local mejorando el rendimiento (Hola Boca, todo bien?(?)). Entonces la predicción que se pueda hacer siempre tiene que tener en cuenta estos detalles y solo es una estimaciones en la que valorar estos factores e identificar que equipos van a mejorar o empeorar su rendimiento.

Como podrán notar en la tabla de posiciones hay diferencias que son menores pero hay varias que son muy importantes. Esto se debe a factores externos y a que se esta intentando pronosticar con solo un tercio del torneo. Si se va haciendo fecha a fecha y ponderando el contexto se puede obtener una buena aproximación. Por ejemplo River aparece como líder en la tabla, y al final del campeonato se ubicaba 9º, pero al tener en cuenta que todavía no había jugado las fases finales de la Libertadores y el bajón en el rendimiento posterior se entiende mejor la diferencia entre el estimado y lo que realmente sucedió. Tal vez no sirve para directamente saber quien va a ganar, pero ayuda a identificar que equipos están en la pelea y cuales están en una zona intermedia o de fondo de tabla.
Por ultimo les quiero dejar una entrevista que le hicieron a Arsene Wegner sobre como un DT de primer nivel utiliza analytics para tomar decisiones: http://www.arsenal.com/news/features/20151219/-statistics-can-cheat-you-