Saiba como utilizar a IA na predição de resultados em partidas de futebol

Gabriel Bueno
Datarisk.io
Published in
4 min readOct 6, 2022

Futebol

O futebol é o esporte mais popular do mundo. Ele une pessoas de idades, sexos, grupos sociais e culturas diferentes. Para ter ideia da influência do esporte, segundo a FIFA, a Copa do Mundo de 2018 realizada na Rússia, contou com 3.5 bilhões de telespectadores, o que corresponde à metade da população mundial na época.

A título de comparação, a principal competição de clubes, a UEFA Champions League tem, em sua final, uma média estimada de 400 milhões de telespectadores, distribuída em aproximadamente 200 países. O esporte mais próximo em audiência em uma final, o futebol americano, a liga de futebol americano dos EUA (NFL), são cerca de 115 milhões de telespectadores acompanhando a partida.

Neste ano, especialmente em novembro, os olhares dos torcedores estarão voltados ao Qatar, país sede da vigésima segunda edição da Copa do Mundo. A expectativa é que o evento esportivo tenha uma audiência ainda maior. A empolgação dos torcedores é tamanha que já iniciaram as especulações de quem levará a taça.

Os veículos de notícias já apontam algumas seleções como favoritas, segundo estudo realizado pelo economista Samy Dana, as cinco seleções favoritas ao título são: Brasil, Inglaterra, França, Argentina e Espanha, respectivamente.

Inteligência Artificial no Futebol

As casas de apostas, que tiveram origem no século XVIII na Grã-Bretanha, no princípio apostavam em corridas de cavalos, e posteriormente deram espaço a outros esportes, como o futebol. Com o avanço da tecnologia, passaram a ser calculados os odds ou cotações das partidas, com técnicas estatísticas mais robustas, e hoje são utilizados algoritmos de machine learning.

Machine Learning é um ramo da inteligência artificial, em que são desenvolvidos algoritmos que possuem a capacidade de aprender, reconhecer padrões e características, para tomar decisões e realizar previsões.

Os algoritmos de machine learning podem ser usados para resolver problemas de classificação, em que através de características observadas busca-se prever uma classe dentro de possibilidades limitadas existentes. As classes podem ser binárias ou múltiplas, no caso de um estudo na área da medicina: paciente doente ou não doente. De outra forma, quando o objetivo é prever resultados de partidas de futebol teríamos 3 classes: vitória, empate ou derrota.

Então, quais informações são usadas para prever os resultados das partidas? Para predição dos resultados das partidas podem ser utilizadas informações históricas das seleções e outras mais. A construção das variáveis é uma etapa muito importante, uma vez que a partir de um conjunto de dados se extrai o máximo de informações que possam ser relevantes para que o modelo possa melhor distinguir cada classe.

Na tabela hipotética abaixo, é apresentado um exemplo de informações, número de gols e chutes na partida, que são encontradas facilmente na internet para realizar as predições dos confrontos.

A partir de tais variáveis, podem ser construídas ainda mais das mesmas, visando melhorar a caracterização das seleções. Podem ser criadas variáveis em relação a um determinado intervalo de tempo, considerando as últimas 3 ou n partidas, como por exemplo: pontuação, número de chutes, gols, jogos sem sofrer gols, percentual de aproveitamento dos chutes, média de gols marcados e sofridos, desvio padrão, número máximo e mínimo de finalizações, gols e assim por diante. Variáveis binárias, caso a equipe tenha sofrido ou marcado gols em todas as últimas partidas, invencibilidade da seleção, entre outras. Além disso, é possível buscar outras fontes de variáveis, que não estejam relacionadas às partidas exclusivamente, como por exemplo o ranking de seleção da FIFA e informações sobre os jogadores de cada uma delas.

Desta forma, após a construção das variáveis, o algoritmo de machine learning é treinado, onde através das características e do resultado, já conhecido (classe), o modelo aprende quais são as informações mais relevantes para realizar a predição.

Para problemas de classificação podem ser usados os algoritmos: árvores de decisão, random forest, regressões logísticas, naive bayes, máquina de suporte de vetores, entre outros. O conjunto de dados destinado ao treinamento, à aprendizagem do modelo, pode ser os resultados das partidas das Copas de 2014 e 2018, usados para a previsão da Copa do Mundo de 2022.

Através do algoritmo treinado, é possível inserir as informações das duas seleções, naquele dado momento, que ele retornará as probabilidades de cada um dos três possíveis resultados: vitória da seleção A, empate ou vitória da seleção B. Assim, é possível simular cada partida da fase de grupos, definir os confrontos da fase de mata-mata e realizar simulações até a grande decisão.

Na Copa de 2018, foram realizados alguns estudos que apontaram anteriormente a campeã França entre as seleções favoritas ao título. No estudo de Groll et al., os autores testaram modelos de regressão Poisson, random forest e métodos de ranking, utilizando variáveis relacionadas a fatores econômicos, esportivos e à equipe, como por exemplo, o número de jogadores que jogam na Champions League.

Conclusões

Recapitulando, neste artigo foi apresentado, de maneira geral, como a inteligência artificial pode ser utilizada para predição dos resultados das partidas de futebol na Copa do Mundo de 2022. Vale ressaltar que existe uma infinidade de conteúdos que abordam detalhadamente o uso de técnicas de machine learning para solução de problemas de classificação.

Querendo aprender mais sobre ciência de dados e inteligência artificial, não deixe de conferir os demais artigos em nosso blog.

Para saber sobre a Datarisk, acesse nosso site e redes sociais: Instagram, Linkedin e Youtube.

--

--