Expected Goals for Dummies

Expected Goals (xG en adelante) puede traducirse como goles esperados o estimados. La idea general es evaluar la calidad de una oportunidad de gol y cuantificarla de una manera objetiva para poder luego analizarla. Esta estadística se desarrollo de manera casi intuitiva, aunque para su cálculo necesita gran conocimiento lo cual la aleja un poco del hincha común, aunque con esta guia para “dummies” voy a intentar disipar la niebla que rodea a xG.
A través de ciertos parámetros se analizan miles de ocasiones de gol (no incluye goles en contra y penales) que han sucedido en el pasado y se agrupan para luego calcular la probabilidad de que termine siendo un gol. Esta probabilidad es un numero entre 0 y 1, aunque el rango mas común es entre 0.02 o 2% y 0.60 o 60%. Cuando uno esta viendo un partido y piensa cosas como “eso debería haber entrado”, “se perdió un gol hecho”, “tuvimos mejores situaciones que el rival” entonces se esta intentando analizar de manera subjetiva las diferentes oportunidades de gol. Con xG simplemente se le da un numero a esa chance para poder compararla y ver si en realidad fue buena o simplemente fue la idea preconcebida que tenemos al ver esa situación la que nos llevo a gritar desaforadamente un “NO TE PODES ERRAR ESO, ¡BURRO!”.
Como dije la forma de calcular xG es bastante intuitiva. ¿Que es lo que mas influye en que una situación termine o no en el fondo de la red?Una jugada con pelota dominada dentro del área chica y solo con el arquero contrario es mucho mas probable de ser gol que un disparo desde el costado de la cancha, fuera del área y con varios jugadores rivales entre la pelota y el arco. Existen datos que se pueden analizar y que afectan ese porcentaje que no se asociarían tan directamente pero al revisar miles de situaciones se ve que hay una clara influencia. Intentare nombrar todo lo que generalmente se usa en diferentes modelos xG, pero en realidad todo depende de la cantidad de datos disponibles y también de que esta es una estadística que sigue evolucionando y los parámetros usados pueden variar.
En principio, y como bien se ve en la imagen principal del post(pueden hacer sus propios mapas aqui gracias a la generosidad de Paul Riley, @footballfactman), uno de los factores mas importantes es la distancia al arco. Entre mas cerca del arco mas crece la probabilidad de convertir un gol, o poniéndolo de otro manera es mas difícil errar al arco. Los goles valen igual desde cualquier lado, pero el mayor porcentaje de ellos proviene de disparos desde dentro del área.
Otro punto muy relacionado con la distancia es el angulo con relación al centro del arco. Como verán en los mapas los goles provienen de una zona que se asemeja mucho a un abanico(version simplificada de probabilidades aqui)y muy pocos goles provienen de ángulos agudos(a los costados del arco y cerca de la linea de fondo). Aunque la distancia sea la misma en dos situaciones distintas, la probabilidad de gol en aquella en donde se este mas cerca del centro de la cancha sera mayor. La razón para que se de esto es que es mas simple para la defensa cubrir el arco y lograr evitar un gol.
Seguimos con si fue con el pie o con la cabeza. Existen casos de goles de cabeza desde casi mitad de cancha(Palermo) pero en lineas generales si todo lo demás es igual una situación donde se patea la pelota es mas probable de ser gol que un cabezazo debido a que se puede direccionar mejor a donde va la pelota. Dentro del área chica los valores de xG entre estas dos opciones terminan siendo muy similares debido a que la cantidades de situaciones es escasa y casi todas terminan en gol.
Asistencia, gambeta, rebote. Básicamente lo que se analiza aquí es que sucedió inmediatamente antes del remate al arco. Un pase al pie es mucho mejor que un centro a la cabeza, por lo tanto aumenta la probabilidad de gol o el xG total. Lo mismo si antes del disparo se gambeteo a un defensor/arquero y hay menos oposición o si es una segunda jugada producto de un rebote lo que generalmente desorganiza a las defensas.
En lineas generales esos son los factores que todos los modelos de xG usan. Luego hay otras cosas que a veces se tienen en cuenta pero depende del modelo y aunque inciden en un calculo de la estadística son dejados de lado por motivos de acceso a los datos(diferentes proveedores de datos, o distintas ligas pueden no entregar la misma información), facilidad de armar el modelo (para analizar datos se usan programas que si tienen mas datos tardan mas o directamente utilizan mas CPU/RAM que la que tienen disponible y fallan), o simplemente porque el creador del modelo cree que el costo-beneficio de agregar mas factores no vale la pena. Algunos otros factores menos utilizados son:
- Presión defensiva: es uno de los factores con mas importancia y que esta al nivel de todos los mencionados anteriormente. Sin embargo por falta de datos es poco utilizado. Hoy en día solo se cuenta con un dato que indica cuantos rivales hay entre la pelota y el arco, pero no la distancia o el lugar exacto y por ello la información no es tan fiable. A futuro, y con rastreo total de los movimientos de los jugadores en cada momento, se podrá utilizar mas y mejorar los modelos;
- Resultado parcial: se ha visto que los equipos reaccionan distinto segun como vaya el resultado del partido. Aunque no parezca tan obvio, el resultado del partido influye en la eficacia de los jugadores y en como terminan las situaciones de gol que tienen;
- Velocidad de ataque: al no contar con datos exactos de presión defensiva se usan otros factores como por ejemplo si hubo una gambeta antes del remate como ya explique anteriormente y también la velocidad de la pelota durante el ataque. A través de este ultimo dato se puede analizar si la acción ofensiva fue durante un ataque con defensores ya posicionados o si es producto de un contraataque, lo que generalmente indica menos defensores y mas espacio para maniobrar;
- Ajustes para jugador X: si se aplica este factor ya estamos hablando de personalizar el modelo para cada jugador. Esto presenta un problema porque para que sea útil se necesitan datos de por lo menos algunas temporadas y eso solo esta disponible en pocas ligas y se dificulta su utilización para jugadores jóvenes. El termino medio para intentar adecuar el modelo mas específicamente es hacelo por ligas/equipos en vez de jugadores. En términos generales un modelo xG bien armado sirve para todas las ligas,sin embargo hay diferencias debido a distintos estilos de juego de cada equipo o liga. Generalmente este tipo de ajustes solo se hace para jugadores del calibre de Messi o Cristiano,o para superequipos que se salen de la media y a los cuales el modelo no consigue reflejar muy bien.
Mapas xG

Uno de los pioneros de xG es Michael Caley y ademas de difundir extensamente su metodología de calculo ha sido uno de los que mas ha difundido los mapas de partidos. En ellos se presenta todas las situaciones de un partido y dependiendo del xG crece el tamaño del cuadrado, indicando con color rosa en este caso los que fueron goles. Elegí este en particular para mostrar uno de los usos de xG mas comunes y es algo que se ha empezado a usar en la Premier League en los programas de la BBC y Sky. Yo creo que tal vez durante el Mundial de Rusia, si tenemos transmisión internacional, vamos a ver algún ejemplo y espero no tener que esperar demasiado par que llegue a las transmisiones de la liga argentina(aunque en realidad soy bastante pesimista con esto). Como podrán observar son fáciles de comprender y se pueden analizar diferentes patrones de manera sencilla y rápida.
Es interesante notar que ambos equipos tuvieron una suma total de 1,1 xG lo cual indica que en promedio ambos deberían haber convertido 1 gol. Sin embargo ambos erraron situaciones dentro del área chica con un xG grande y el Athletic convirtió un gol de una situación mala(2% o 0.02xG). La realidad es que cada uno de los remates podría haber terminado en gol,a pesar de un xG menor o mayo, pero si juntamos una gran cantidad de chances veríamos que convertir desde fuera del área solo sucede una vez cada 40 o 50 veces. Por ello es recomendable tomar los datos de los mapas con precaución debido a que un partido puede ser anormal, pero sumando toda una temporada(al menos) los valores de xG y de goles convertidos se asemejan mucho.
¿Entrenar xG?

Alguna vez ya he escrito esta idea en mi twitter pero creo que vale la pena repetirla. Supongamos que somos el equipo blanco, el jugador A(fuera de la medialuna) tiene la pelota y tiene 2 opciones:rematar al arco o hacer un pase al jugador B(corta hacia el centro del área). Suponiendo que el pase se concreta y B logra rematar, esta chance tendría un xG de 0.4 o un 40% de probabilidad de ser gol, pero si en cambio A remata eso solo nos daría una chance de 0.03xG. Muchas veces en un partido cerrado se escucha a comentaristas de TV o a hinchas diciendo “pegale de afuera al menos” casi frustrados por la falta de situaciones. Puede ser cierto que un bombazo desde afuera puede abrir un partido, pero la chance de convertir esa situación es tan baja que muchas veces conviene intentar el pase extra. Ciertamente no todos los pases van a ser buenos o los defensores pueden cerrarse e impedir el remate de B, pero estamos diciendo que con que 1 de 13 situaciones sea buena ya tenemos la misma probabilidad que si A hace el remate de entrada.
Por supuesto un equipo puede considerar que tiene un jugador que le pega muy bien de afuera y por ello desecha esto pero siendo sinceros ¿cuanto mejor que el promedio general puede ser?. Supongamos que en vez de 0.03xG tenga 0.05(un incremento del 66%,muy por sobre la media) e igualmente tendríamos una comparación en donde si 1 de cada 8 pases son fructíferos entonces los xG totales se equiparan. Esto no implica eliminar todos los remates de larga distancia como ha intentado hacer Morey, GM de los Houeston Rockets de la NBA con los ineficientes tiras de media distancia, sino simplemente acotar las cantidad de tiros y estudiar cuales son las condiciones optimas para tomarlos.
Yo creo que es posible entrenar a los jugadores para que sepan como mejorar su juego a través de xG. Es claro que no hay que llegar al grado donde un jugador dude en rematar y termine perdiendo la pelota solo porque la otra opción mejoraba su xG de 0.05 a 0.06. Pero si se les enseña ejemplos y en los entrenamientos se delimitan zonas de remate se les puede concientizar que tal vez perder una mala chance intentando una mucho mejor vale la pena. Ademas se pueden crear estrategias para maximizar los factores que aumenten considerablemente el xG como por ejemplo evitar los centros desde el costado del área. Son una herramienta valida de hacer llegar la pelota a una zona defensiva rival pero tienen una cantidad tan ínfima de gol que salvo es oportunidades de ultimo recurso no valen la pena realizarlas.
Uso con precaución, arma de destrucción masiva(?)
xG en particular y analytics en general son solo herramientas. Saber utilizarlas solamente para lo que fueron creadas y entender sus limitaciones es casi tan importante como la ventaja que pueden generar el uso de las mismas. Al ver valores siempre hay que considerar el contexto y nunca dejarse llevar por la primera impresión. Los modelos no son perfectos,ni pueden tener en cuenta todos los factores que influyen realmente en la conversión de un gol y hay que estar atentos a los extremos que podamos identificar. Si un jugador esta logrando una cantidad de goles muy superior a su xG durante periodos largos de tiempo corresponde al analista de turno identificar la causa. Puede ser que el jugador sea de calidad superior(Messi tiene un 40% mas de goles que su xG base) pero también puede depender de el equipo en el que juega y de como situaciones que en promedio son malas terminen siendo aceptables/buenas y por eso convierta mas. No existe un numero mágico, solo una herramienta para mejorar el análisis y sobreutilizarla o hacerlo sin precaución puede llevar a errores que terminen costando la ventaja inicial que se había ganado e incluso mas.
Si tienen algun duda, quieren links de los modelos(en ingles) o el nombre de algunas las personas que mas hacen avanzar los analytics en fútbol(por lo menos en publico) no duden en contactarme en mi cuenta de twitter: @AndresNM13
