Seria possível usar inteligência artificial para convocar a seleção brasileira?

Luiz Felipe Manke
Neoway Labs | Tech
10 min readOct 25, 2022

--

Foto de Emilio Garcia via Unsplash

Durante o maior evento de Data Analytics do país, o Data Driven Business, a Neoway trouxe para o Brasil o prêmio Nobel de Economia, Daniel Kahneman. Seus estudos sobre economia comportamental transformaram a forma como enxergamos as tomadas de decisão.

A principal contribuição de Kahneman demonstra que somos influenciados a todo momento por vieses que impactam nossa deliberação e acabam fazendo com que nossas escolhas sejam muito mais emocionais do que racionais.

E, para um brasileiro, poucas coisas são mais emocionais do que a seleção…

Pensando nisso, e se nós retirarmos esse componente da convocação para a Copa do Mundo? Outra forma de colocar essa pergunta é: e se, por algum motivo, o técnico Tite fosse substituído por algoritmo usando machine learning e IA?

O resultado para essa pergunta foi esse daqui:

Goleiros: Alisson (Liverpool) e Ederson (Manchester City)

Laterais: Danilo (Juventus), Emerson Royal (Tottenham), Alex Sandro (Juventus) e Alex Telles (Sevilla)

Zagueiros: Marquinhos (PSG), Thiago Silva (Chelsea), Felipe (Atlético de Madrid) e Éder Militão (Real Madrid)

Meio-campistas: Casemiro (Manchester United), Arthur (Liverpool), Anderson Talisca (Al Nassr), Philippe Coutinho (Aston Villa), e Lucas Paquetá (West Ham)

Atacantes: Neymar (PSG), Gabriel Jesus (Arsenal), Firmino (Liverpool), Richarlison (Tottenham), Matheus Cunha (Atlético de Madrid), Raphinha (Barcelona) e Lucas Moura (Tottenham)

Nossa “convocação” foi notícia na ESPN. E, se olharmos para os dados essa lista não está distante do time titular usado pelo técnico Tite no último amistoso da seleção brasileira antes da Copa do Mundo. Em 27 de setembro, o Brasil venceu a Tunísia por 5 a 1 e entrou em campo assim:

Allisson, Danilo, Marquinhos, Thiago Silva e Alex Telles; Casemiro, Fred, Raphinha e Neymar; Lucas Paquetá e Richarlison.

10 dos 11 titulares desse amistoso seriam “convocados” usando Inteligência Artificial. Curiosamente, todos os seis atletas que entraram no decorrer da partida (Vini Jr, Pedro, Antony, Rodrygo, Renan Lodi e Ibañez) estão fora dos “selecionados” pelo estudo.

Neste artigo, vamos explicar como chegamos na lista acima, além de trazer uma rápida pincelada sobre como tecnologia, dados e estatísticas podem ajudar no desenvolvimento de equipes e servir como suporte na tomada de decisões.

Foto de Denniz Futalan

No primeiro momento, a ideia era conseguir um score para cada um dos jogadores em quatro posições diferentes, quase como as posições de uma mesa de peb:

Goleiro| Defensor | Meia | Atacante

No entanto, no futebol real, as posições são mais específicas do que isso, mas é mais fácil entrar logo no campo de data science.

Antes, alguns avisos:

  • Claro que esse exercício é apenas uma forma de demonstrar algumas das possibilidades e atalhos que a tecnologia pode trazer para a análise de desempenho.
  • A equipe técnica de Tite já possui analistas de desempenho e, em nenhum momento, temos a intenção de sugerir a substituição de qualquer um desses profissionais de ponta.

Primeiro tempo: a escolha dos datasets

Para começar, precisávamos dos datasets com as informações sobre os jogadores. O primeiro deles era um conjunto de dados com milhares de partidas das principais ligas da Europa entre os anos de 2008 até 2016.

Nesse banco de dados, para cada partida foram fornecidas informações sobre o resultado do jogo, assim como a posição de cada atleta no apito inicial. E, para cada jogador, dezenas de atributos eram fornecidos com base no simulador da EA Sports, o FIFA do ano em questão.

Esses atributos eram velocidade, altura e domínio de bola, dentre outros. No final, tínhamos as características dos jogadores para cada posição em campo e o resultado das partidas.

Foto de Kelly via Pexels

O primeiro dataset é útil para poder entender as características dos jogadores que mais influenciam uma partida, porém 2016 está muito longe da nossa realidade futebolística de hoje em dia.

Para ter informações mais atualizadas, um segundo banco de dados foi utilizado. Esse trazia um levantamento geral das mesmas estatísticas dos jogadores contidas no dataset anterior, também coletadas do simulador FIFA, porém agora para o ano mais recente, 2022.

Propositalmente, ambos os datasets escolhidos são públicos e disponíveis no Kaggle:

Assim, podemos dizer que o estudo foi feito em duas etapas:

  • Um modelo foi treinado numa base de dados que tinha informações sobre os jogos, posição, jogadores, estatísticas e resultados (tudo isso de 2008 até 2016 dos jogos europeus).
  • Outra base de dados (agora de 2022), com as mesmas estatísticas da base de dados anterior, foi utilizada para fazer a predição dos melhores jogadores atuais. Vale lembrar que nesta segunda base, estavam atletas que atuam no Brasil.

Segundo tempo: treino e modelagem

Essa combinação tinha cerca de 17 mil amostras, 10 mil onde o time da casa venceu, e 7 mil onde o time visitante saiu com a vitória. Com isso, partimos para a modelagem.

Para o treinamento do algoritmo, escolhemos um algoritmo de boosting, o CatBoost, por normalmente trazer resultados excelentes logo de cara. Essa técnica cria árvores de decisões continuamente, sempre tentando reduzir o erro da árvore anterior.

Levamos o dataset escolhido para o campo (da ciência de dados) e iniciamos o treino. Como nossos dados são um pouco desbalanceados, utilizamos o score de F1 para avaliar a acurácia do algoritmo, onde o mesmo conseguiu uma pontuação animadora de 0.75, num máximo de 1.0.

Basicamente, esse é um cálculo de acurácia que leva em conta falsos positivos e falsos negativos (o que é bastante importante quando o dado é desbalanceado).

Mas, como o CatBoost não é um modelo linear, não é tão intuitivo entender a influência de uma característica de entrada com a decisão final do algoritmo. Por isso, para extrair a importância de cada estatística dos jogadores, o CatBoost aplica alterações nos dados de entrada para entender o impacto das mesmas nas predições finais.

Por essas informações, já é possível ter uma ideia dos atributos mais importantes dos meio campistas, como reação e drible, que tiveram uma importância maior no algoritmo. Também é possível entender quais as posições que mais contribuem para aumentar a probabilidade de vitória, como os goleiros, que tiveram suas estatísticas no topo da lista de importância.

Assim, foi possível determinar as qualidades que ajudam um time a ganhar mais partidas e dar peso para as habilidades dos jogadores, chegando a uma média para cada atleta.

Feito isso, estava na hora de fazer as inferências. Ou seja, efetivamente listar os melhores jogadores com base no treino. Só que, primeiro, era preciso resolver um problema temporal…

Na marca do pênalti: dados do passado e predição

Como o dataset de treino tinha dados até 2016 não era possível fazer a predição dos jogadores mais atuais. No entanto, notamos que os dados para aquele dataset de treino vinham do simulador da EA Sports, o popular FIFA.

Então, usamos a mesma lógica, mas com as estatísticas de FIFA atualizadas. Temos jogadores com informações mais recentes, com características calibradas e são as mesmas habilidades. Assim, foi possível fazer uma inferência e tirar uma lista de melhores jogadores.

Aqui, cabe lembrar que os dados do game FIFA são baseados no histórico real de partidas. Ou seja, os resultados e habilidades reais dos jogadores. O database do jogo fornece dados para times de vários países, inclusive europeus e sul-americanos. E todo ano eles liberam uma atualização nova, com a edição corrente do jogo.

Considerando essa metodologia chegamos ao score de jogadores para

Macro positions = apenas 4 posições macro (goleiro, defesa, meio e ataque)*

Micro positions = posições mais detalhadas (laterais, zagueiros, volante, meia-atacante)**

Global = uma lista considerando jogadores do mundo todo (inferindo as posições micro, que são mais detalhadas)

* Neste grupo, a defesa compreende zagueiros e lateriais, assim como o meio-campo tem tanto volantes quanto meia-atacantes

** No processo de definição das posições detalhadas, os zagueiros foram recalculados, pois, antes, o conjunto de defensores englobava os laterais.

Para efeitos práticos, as macro positions não foram usadas, pois apenas serviram de ponto de partida para uma análise mais granular.

Prorrogação: algumas considerações

Os nomes que ficaram no topo da lista de cada posição são os atuais jogadores da seleção, pois eles naturalmente possuem suas estatísticas melhores que as dos outros jogadores. Ou seja, não é uma surpresa, pois mesmo passando por um algoritmo de ponderação de características, eles ainda se destacam facilmente.

No entanto, é interessante ponderar que, ao expandir a lista, vemos nomes menos conhecidos. E é aqui que o estudo sai um pouco do comum/esperado.

Dentre os jogadores listados, temos algumas ausências marcantes: Vini Jr (Real Madrid) e Pedro (Flamengo), deram lugar para nomes menos prováveis como Lucas Moura (Tottenham) e Anderson Talisca (Al Nassr), por exemplo.

Em relação a Vini Jr, a ferramenta usada para montar a seleção pode ter penalizado o atacante do Real Madrid em habilidades nas quais ele tem menos destaque, como o poder de cabeçada, que é um dos piores atributos do jovem. Dessa forma, o atleta ficou fora da lista hipotética, apesar de estar listado entre os 15 melhores brasileiros na posição.

Os atletas que atuam no Brasil estão nas bases, mas com estatísticas piores do que os jogadores de times de ponta da Europa.

O caso Talisca

O algoritmo leva em consideração o nível de competitividade de cada campeonato — o que pode prejudicar atletas que jogam fora dos grandes centros. Curiosamente, Anderson Talisca, que não joga em um desses centros, conseguiu se destacar mesmo assim.

Um ponto que chama a atenção é que, apesar de ele não ter estatísticas excelentes (90+), ele também não tem estatísticas ruins, sendo a menor dele 76, por exemplo. Enquanto isso, alguns jogadores mais aclamados tem umas características com notas bem baixas, entre as médias 60 e 50, o que acaba impactando bastante no resultado final.

A investigação desse tipo de ponto fora da curva pode até render um novo artigo no futuro.

A seleção do mundo

Usando a mesma lógica, montamos a “seleção do mundo”. Nesse caso, uma escolha metodológica foi feita após o score dos jogadores ser definido: retiramos jogadores de nações que não vão disputar a Copa do Mundo.

Foto: Connor Coyne via Unsplash

O time escalado teria:

Neuer (Bayern de Munique),

Azpilicueta (Chelsea), Sergio Ramos (PSG), Van Dijk (Liverpool) e Lucas Hernández (Bayern);

Kimmich (Bayern), Thiago Alcântara (Liverpool) e De Bruyne (Manchester City);

Mbappé (PSG), Cristiano Ronaldo (Manchester United) e Neymar (PSG).

Uma prova do quão ingrato é o papel de quem seleciona jogadores fica clara nessa lista. Mesmo usando IA e tendo a liberdade de escolher os melhores jogadores do planeta, de acordo com a pontuação definida, a “seleção do mundo” deixaria ninguém menos que Lionel Messi no banco de reservas.

Apita o árbitro: Conclusão

Vale ressaltar que o objetivo do exercício nunca foi afirmar que a tecnologia, seja lá qual for, poderia substituir um ser humano na função de técnico ou mesmo analista com a mesma eficiência.

A tecnologia, no entanto, ajuda a cortar caminho a depender das perguntas que são feitas para o algoritmo.

Quem acompanha de perto o técnico Tite sabe o quanto o comandante da seleção brasileira leva em consideração esse tipo de conhecimento. No documentário Tudo ou Nada: Seleção Brasileira, é possível observar essa preocupação constante por parte da comissão técnica brasileira.

Por fim, neste artigo trouxemos um exercício simples e rápido que une dados e futebol. Com base em um histórico de estatísticas, entendemos as peças mais importantes para aumentar a chance de vitória. Depois, com base nessas informações, escalamos as melhores seleções, que renderam algumas controvérsias.

Se o próprio Tite não vai agradar todos os torcedores com sua seleção, não seria uma ferramenta tecnológica que chegaria a um time livre da cobrança dos fanáticos e fantásticos seguidores brasileiros.

Como diria o grande escritor, jornalista e torcedor Nelson Rodrigues: “o futebol é passional porque é jogado pelo pobre ser humano”. No fim do dia, ainda são humanos tomando decisões em um ambiente de altíssima competitividade.

Autores: Tiago Alcantara e Luiz Felipe Manke

Vamos continuar essa tabelinha?

Esse estudo faz parte de uma campanha da Neoway, maior empresa de data analytics e inteligência artificial da América Latina, para a Copa do Mundo. Nas próximas semanas, vamos lançar uma série de podcasts convidando nomes relevantes do jornalismo esportivo para comentar a relação cada dia mais próxima entre análise de dados e o futebol. Estão confirmados Paulo Vinícius Coelho (PVC), Celso Unzelte e Rodrigo Fragoso, dentre outros. Fique de olho aqui para novidades.

Curtiu o conteúdo? Não se esqueça de deixar seus comentários, dúvidas e compartilhar esse post nas suas redes.

A Neoway desenvolve soluções de Big Data Analytics e Inteligência Artificial que geram precisão para a tomada de decisão e produtividade para os processos de marketing, compliance, prevenção contra fraudes, análises jurídicas, gestão de crédito, entre outros.

Estamos contratando: para saber mais sobre as vagas disponíveis, visite nosso perfil oficial na Gupy.

--

--