Tipos de mediocampistas en Liga MX | Utilizando K-means clustering

Tom Harrison
9 min readMay 3, 2021

--

Uno de los mejores usos de datos en fútbol es para entender estilos de juego muy rápidamente; estilos de equipos y estilos de jugadores. Nunca es suficiente solo analizar los datos, pero si se quiere crear un lista corta de jugadores o entender estilos de todos jugadores en una liga es un método muy eficiente.

Un método para analizar estilos de jugadores es de usar filtros. Esto es fácil pero posiblemente tiene problemas. Es difícil decidir los filtros, y hay un riesgo que se puede perder jugadores.

Entonces, en este análisis, voy a intentar un método diferente. K-means clustering es un método de aprendizaje de maquina no supervisado. Toma un conjunto de datos y genera grupos, basado en números similares. Con K-means clustering, se puede analizar todos los jugadores en un conjunto de datos, y generar distintos grupos, basado en características en común de los jugadores.

Probablemente la parte más importante de este análisis es la selección de los datos usados. He intentado hacer este análisis simple, y enfocado en estilo más de calidad (pero, casi todos los datos tienen aspectos de ambos). Los datos seleccionados son:

  • Pases recibidos por 90, Pases progresivos por pases totales (o “verticalidad”), pases al último tercio por 90, duelos defensivos por 90, interceptaciones (ajustado por posesión), barridas (ajustado por posesión), duelos ofensivos (sin regates) por 90, regates por 100 posesiones, centros por 100 posesiones, toques en el área por 90, tiros por 90, pases en profundo por 90.

Con K-means clustering, se puede elegir cuantos grupos el algoritmo va a generar. He elegido 10 grupos, esto parece la mejor cantidad por este análisis, después de un análisis de sum of squared errors.

Voy a presentar los diez grupos, con descripciones de las características de los grupos, los jugadores en los grupos y jugadores se destacan dentro del grupo.

Todos los jugadores tienen más de 600 minutos en 2020–21, actualizado a jornada 14.

1- Contenciones

Este grupo tiene la mayor cantidad de jugadores. Jugadores en este grupo tienden de hacer más acciones defensivos y menos regates, duelos ofensivos, centros y tiros. También, la mayoría tienen más pases recibidos que el promedio y juegan con menos verticalidad.

Jugadores: Jesús Molina, Celso Ortíz, José Juan Vázquez, Lorenzo Reyes, Fernando González, Jorge Hernández, José Rodríguez, Pedro Aquino, Aldo Rocha, Kevin Balanta, Esteban Pávez, Cristian Rivera.

En este grupo, Jesús Molina tiene más toques en el área y solo él y Celso Ortíz reciben menos pases que el promedio. Ortíz también juega más vertical. Cristian Rivera tiene un poco más impacto ofensivo, con el más alto número de duelos ofensivos y pases en profundo.

2- Contenciones directos

Este grupo es similar que grupo 1, pero con algunas diferencias. Comparado con grupo 1, tienden de contestar menos duelos defensivos y recibir menos pases (puede ser por su movimiento, estilo de su equipo o decisiones de compañeros), mientras jugando con más verticalidad y mandando más centros.

Jugadores: David Cabrera, Rafael Baca, Alan Torres, Gonzalo Montes, Javier Güemez, Pablo González, Jorge Sánchez, Matías Kranevitter, Erik Lira.

Hay diferencias en impactos ofensivos en este grupo. Kranevitter y Lira mandan menos centros que los otros contenciones en este grupo y, con Montes y Baca, esos cuatro tiran menos. “Lalo” Torres recibe mucho más pases por partido.

Jorge Sánchez es diferente sin posesión, con más duelos defensivos por 90.

3- Contenciones con poca posesión

Otra vez, similar que grupos 1 y 2 pero con pocos pases recibidos por 90 y poca verticalidad. En la misma manera de grupo 2, jugadores en este grupo contestan menos duelos defensivos que grupo 1. Es notable que todos jugadores en este grupo son Mexicanos.

Jugadores: Joaquín Esquivel, Andrés Iniestra, Antonio Ríos, Roberto Meraz, Edgar Zaldívar, Kevin Escamilla.

Jugadores en este grupo tienen números muy similares, pero una diferencia es que Esquivel contesta más duelos defensivos. Con más pases recibidos, Esquivel sería parte de grupo 1.

4- Mediocampistas con pocas acciones

Este grupo es bastante similar que grupo 3 pero jugadores aquí califican bajo del promedio en todas las acciones defensivas (duelos, interceptaciones y barridas). También, muestran un estilo más ofensivo que grupo 3, con los cuatro jugadores cerca del promedio por toques en el área. Jugadores en este grupo posiblemente hacen trabajo importante que no está mostrado en los datos (por ejemplo, la prevención de carriles de pases) pero parece que no tienen un gran impacto en partidos.

Jugadores: Jesús Zavala, Javier Salas, Daniel Aguilar, Santiago Cáseres.

Daniel Aguilar es un poco diferente, con más centros y tiros. Mientras Cáseres tenía más pases recibidos y duelos defensivos que los otros en este grupo durante su tiempo con América.

5- Box-to-box

En muchas maneras, este grupo es lo contrario que grupo 4. Hay diferencias en este grupo, pero en promedio, este grupo califica al promedio o más alto que el promedio en todos datos seleccionados. Jugadores en grupo 5 califican particularmente alto en interceptaciones y pases al último tercio, mostrando sus impactos con y sin posesión.

Jugadores: Guido Pizarro, Fernando Gorriarán, Marcel Ruíz, Mario Osuna, Guillermo Fernández, Martín Rabuñal.

Guillermo Fernández posiblemente es el jugador más difícil de encontrar un grupo. Tiene similitudes en este grupo aparte de su bajo duelos ofensivos, muy poca verticalidad y la gran diferencia, Fernández actualmente tiene el más bajo número de duelos defensivos por 90.

Parece que Guido Pizarro no cabe en este grupo, pero sus datos probablemente muestran un cambio en su estilo recientemente. Ahora, Pizarro no siempre juega como el contención más defensivo para Tigres y puede unirse en el ataque.

6- Mediocampistas con menos posesión

Grupo 6 es similar que grupo 3, pero con más duelos defensivos y más acciones ofensivos; regates, remates, toques en el área. Como grupo 3, la mayoría de jugadores aquí son Mexicanos. Muchos Mexicanos jóvenes son una parte de grupo 3 o 6, con menos pases recibidos por partido.

Jugadores: Alan Cervantes, Erick Sánchez, Fernando Arce, Santiago Naveda, Andrés Andrade, Pablo López, William da Silva, José Rivero.

Alan Cervantes y Andrés Andrade contestan más duelos defensivos por partido, con números similares de muchos de los contenciones defensivos en grupo 1. Erick Sánchez hace más barridas. José Rivero juega más vertical por este grupo, mientras Fernando Arce y Pablo López son los únicos jugadores bajo del promedio en regates (y solo un poco).

7- “Ochos”

Más pases recibidos, más regates, más pases/centros al área pero menos remates y toques en el área. Jugadores en este grupo apoyan la construcción y ofrecen creatividad, pero no llegan en el área mucho. Casi siempre juegan con un contención más defensivo.

Jugadores: Claudio Baeza, Fernando Beltrán, Jefferson Intriago, Leonel López

Hay una diferencia en duelos defensivos, Beltrán y Intriago contestan menos, Baeza y López más. López también hace barridas más frecuentemente que todos otros mediocampistas en Liga MX.

8- Regateadores

Muchos regates y duelos ofensivos, sin muchos pases recibidos. Jugadores en este grupo tienden de tirar y cruzar más, y hacer menos acciones defensivos.

Jugadores: Alfonso González, Fernando Madrigal, Ángel Márquez, Juan Pablo Vigón, Álvaro Fidalgo, Juan David Castro.

Juan David Castro es el único jugador en este grupo con menos del promedio en tiros por 90. “Ponchito” González se destaca en pases en profundo y contesta más duelos defensivos. Ángel Márquez hace interceptaciones y barridas más frecuentemente.

9- Generadores

Este grupo recibe mucha posesión, y juega bastante vertical con muchos pases al último tercio. Sin embargo, jugadores en este grupo hacen su mejor impacto en el último tercio, con muchos pases/centros al área y tiros. Tienden de ser un poco menos activo sin posesión.

Jugadores: Luis Romo, Carlos Rodríguez, Víctor Guzmán, Richard Sánchez, Rafael Carioca, Luis Chávez, Yoshimar Yotún, Jordi Cortizo.

Jordi Cortizo hace muchos regates y sería parte de grupo 8, sin su alto número de pases recibidos por 90. Rafael Carioca no llega en el área como el resto del grupo, con menos toques en el área y remates. Víctor Guzmán se destaca en tiros, hace más de uno más por partido que el segundo más alto.

10- Luis Montes

Montes probablemente debería ser parte de grupo 9, pero con tantos pases recibidos y pases en profundo, y más regates, él tiene su propio grupo.

Como visualizar estos datos

Hay diferentes maneras de visualizar estos datos, haciendo comparaciones entre un jugador, su grupo y otros mediocampistas.

Aquí hay un ejemplo, como califica Luis Romo en una variedad de métricas (entre y fuera del análisis de K-means clustering) y los otros jugadores en su grupo.

Además, es posible utilizar diamantes para visualizar este análisis. Con diamantes, se puede ver las relaciones entre diferentes datos y otra vez como califica un jugador específico y otros jugadores en su grupo.

Esta gráfica muestra Cristian Rivera de Tijuana y grupo 1, contenciones.

El impacto de estilo de equipo

Es importante entender como un estilo de un equipo puede impactar el grupo que ocupa un jugador. Este tema es complicado, hay muchas maneras de analizar el estilo de un equipo, pero voy a concentrar en dos métricas. Verticalidad analiza las decisiones de un equipo con posesión en general, si juega más o menos directo, y hay una correlación fuerte entre verticalidad y posesión. Presión alta (PPDA) muestra acciones generales de un equipo sin posesión, sus decisiones sobre presión.

Jugadores no siempre están en la cancha, entonces los números de verticalidad de equipos no siempre están perfecto, pero he alterado datos por transferencias y debutantes en Guard1anes 2021.

La primera gráfica muestra verticalidad de equipo contra grupo de jugador. La mayoría de contenciones defensivos ocupan grupos 1 (azul) y 2 (verde), y la diferencia más grande entre los dos grupos es su verticalidad. Como se esperaba, jugadores en grupo 2 juegan en equipos más directos que jugadores en grupo 1, aparte de algunos jugadores atípicos. En equipos menos directo, Alan Torres y Rafael Baca juegan más directo. Celso Ortíz tiene la verticalidad de grupo 2 pero contesta más duelos defensivos.

Es interesante que grupos 3 (naranja) y 4 (rosa), jugadores con pocos toques, juegan para equipos que califican en la mitad para verticalidad. Esto puede ser una coincidencia, pero es algo para considerar.

Finalmente, Fidalgo se destaca en grupo 8, los regateadores. Él es el único jugador en un equipo menos vertical y por esa razón posiblemente es una decepción que no sea parte de grupo 9, los generadores.

La próxima gráfica muestra grupos contra presión alta de equipo. La mayoría de grupos tienen jugadores que juegan en equipos con una variedad de decisiones sobre presión alta.

Sin embargo, jugadores en grupo 1 tienden de jugar por equipos que ponen más presión alta, aparte de Lorenzo Reyes. Podemos ver lo mismo en grupo 9.

Jugadores en grupo 3, contenciones con poca posesión, juegan por equipos que presionan menos. Puede ser una coincidencia, pero tiene sentido que equipos que presionan menos tienen menos posesión y entonces sus jugadores tienen menos toques. Es importante considerar este factor cuando analizando jugadores.

Un método útil

Por un gran aficionado de Liga MX, este análisis posiblemente no ha iluminado muchísimo. Aparte de algunas sorpresas, la mayoría de los jugadores están en grupos que había esperado. Pero este factor probablemente muestra una fortaleza del análisis, que los grupos pasa la “prueba de ojos” (the eye test). Con esta confianza en el proceso, es posible hacer el mismo estudio en otras ligas con un otro conjunto de datos, y entender estilos de todos jugadores en una posición general. Esto puede acelerar procesos de scouting, especialmente si se quiere reemplazar un jugador.

Sin embargo, un tipo de análisis nunca es suficiente y he mostrado que puede ser un impacto del estilo de equipo. Entre algunos grupos (como 1 y 2), estilo de equipo posiblemente es un factor determinante, sin embargo más análisis es necesario para entender este factor. También hay diferencias entre grupos y jugadores que están muy cerca de otros grupos (y uno que no parece correcto en todos grupos). Finalmente, posiblemente habría desacuerdos con los datos que he seleccionado por este análisis que cambiaría los resultados.

Esto me lleva a mi punto final. Scouting y análisis no puede ser perfecto. El objetivo es para generar el mejor entendimiento posible, con una variedad de métodos, en el menor tiempo posible. Entonces, un equipo tiene la máxima oportunidad de hacer una decisión efectiva. K-means clustering no parece un método absolutamente necesario, pero parece bastante efectivo y eficiente. Es un tipo de análisis que voy a utilizar más en el futuro.

--

--