O que é Sports Analytics e porque você pode se interessar pela área

Mariana Pasqualini
rladiesbh

--

Um pouco de história

Pode-se dizer que foi no baseball, um esporte bastante popular nos Estados Unidos, que surgiu a necessidade de tornar a tomada de decisão mais orientadas a dados, se distanciando da tradição e se aproximando ao empírico. Analisar um jogo de baseball através da Estatística se tornou conhecido como sabermetrics e surgiu aproximadamente no século 20, ganhando visibilidade com o livro Percentage Baseball (1964) escrito por Earnshaw Cook.

A consolidação do sports analytics no mainstream veio com o livro Moneyball (2003) escrito por Michael Lewis, que conta a história de como Billy Beane, gerente geral do time de baseball Oakland Athletics, levou ao time uma abordagem mais orientada a dados para obter a melhor performance em um cenário de restrição de custos. Em 2011, o livro foi adaptado para um filme homônimo e traduzido no Brasil como O Homem que Mudou o Jogo.

Desde então, vários times têm buscado coletar dados no menor nível possível — o jogador em quadra — para obter a melhor performance em jogo e vantagem competitiva. Na temporada de 2010–11, quatro times da NBA haviam contratado o SportsVU, um sistema de câmeras que coleta dados dos jogadores em tempo real, detectando variáveis como posição e velocidade. Hoje, essas tecnologias já são um consenso nos times da NBA e estão presentes em todas as arenas da liga. Já no futebol americano, a tecnologia de coleta de dados em jogo é através de chips nos equipamentos dos jogadores, implementado em 2014 através do programa Next Gen Stats.

Independentemente da trajetória tecnológica nos jogos, há um consenso: o esporte tem caminhado cada vez mais para uma abordagem quantitativa. Os times de data e analytics têm crescido cada vez mais nos grupos e franquias esportivas, atuando de maneira orientada a dados não só nos jogos e torneios, mas também no gerenciamento da marca e engajamento dos torcedores com o time. Apesar disso, esse caminho tem sido mais difícil e lento nas categorias femininas. A jornalista visual (em tradução livre) Alisson McCan deixou isso bem claro nesse post de 2015 no blog FiveThirtyEight, famoso pelo jornalismo quantitativo envolvendo política e esportes. Uma mudança mais evidente apareceu em 2019, com um site da liga de basquete feminina WNBA reformulado, com estatísticas mais completas. A competição universitária feminina (WNCAA) viu o seu maior público em 2019 e, de acordo com o Google Trends, a busca pelo torneio WNBA foi maior em 2019 que em 2016. São bons acontecimentos, mas ainda há muito a ser alcançado.

Por que é uma área notável?

Além do lado passional dos esportes e da possibilidade de ver os dados acontecendo em jogo, você pode exercitar suas habilidades de data wrangling, joins e aplicar modelos de classificação para prever o ganhador de uma partida de basquete, por exemplo.

Também é possível aplicar várias métricas pertinentes a cada esporte, contemplando os dados a um nível de detalhe do jogo (game-by-game) e até mais granular, como a interação entre os jogadores durante uma partida (play-by-play). Os dados, geralmente, também estão na dimensões de tempo (temporadas, segundos desde o último gol) e espaço (região da quadra em que o ataque foi iniciado).

A área de Sports Analytics tem crescido a cada ano, com profissionais dedicados à dados em vários times grandes. Diana Ma, por exemplo, é uma cientista de dados na equipe de basquete dos Lakers e Namita Nandakumar, que trabalha com análise quantitativa no time de hockey no gelo NHL Seattle.

A Namita Nandakumar apresentou no rstudio::conf desse ano como usar o Tidyverse para analisar dados de hockey e você pode assistir clicando aqui. Ela apresenta um modelo baseado em uma estatística muito popular no hockey, conhecida como xG ou gols esperados (uma tradução livre de expected goals), que calcula o quão provável é de se marcar um gol. Mas a Namita levanta uma preocupação importante: nem todos os lances são igualmente perigosos, alguns são mais que outros, então é importante que o contexto do jogo seja levado em consideração. Foi com esse problema em mente que quatro pesquisadores desenvolveram um framework para quantificar a influência de ações individuais de um jogador na conquista do gol no futebol. Essas ações, de acordo com o contexto do jogo, vão contribuir para o aumento da probabilidade de fazer gol ou torná-la menor. Além do framework proposto, eles também comentam alguns desafios de aplicar dados dos eventos dentro de uma partida de futebol na ciência de dados. O artigo ganhou como Melhor artigo na trilha de ciência de dados aplicada no KDD 2019, uma conferência voltada para mineração de dados, e está com acesso livre aqui. Eles também fizeram um video com a ideia do artigo, olha só:

Um resumo em video do artigo Actions Speak Louder Than Goals: Valuing Player Actions in Soccer

Inspirada na apresentação da Namita, principalmente nos heat maps, eu fiz esse gif com o pacote gganimate mostrando uma estatística bem popular no basquete, conhecida como pontos convertidos por tentativas, ou points per shot attempted, contemplando arremessos de 2 ou 3 pontos (sem lances livres). É uma métrica bem simples: basta dividir os pontos convertidos pelo total de arremessos, convertidos ou não. Os dados utilizados são da temporada 2018–19 da primeira divisão da NCAA de basquete universitário feminino e contemplam a temporada regular e os jogos finais, conhecidos como march madness. A variável DayNum se refere ao dia em que os jogos aconteceram em relação a data de início do torneio. O código usado para esse gif você encontra clicando aqui.

É notável que a maior parte dos pontos convertidos por tentativas está concentrado bem perto da cesta, aparecendo timidamente em algumas regiões da linha de 3 pontos.

Você pode começar a explorar esses dados agora e criar suas próprias análises, predições e visualizações!

Ok, mas por onde eu começo?

Uma breve pesquisa internet a fora nos leva a muitos blogs, análises e possibilidades, então para finalizar, separei alguns links interessantes.

Para mergulhar no assunto:

Para colocar a mão na massa:

Referências

NBAstuffer: Basketball Analytics & NBA Stats. Nbastuffer.com. Disponível em: https://www.nbastuffer.com/. Acesso em: 20 jul. 2020.

PAINE, NEIL. Women’s Basketball Was Building Momentum. Then All The Games Stopped. FiveThirtyEight. Disponível em: https://fivethirtyeight.com/features/womens-basketball-was-building-momentum-then-all-the-games-stopped/. Acesso em: 22 jul. 2020.

R + Tidyverse in Sports. Rstudio.com. Disponível em: https://rstudio.com/resources/rstudioconf-2020/r-tidyverse-in-sports/. Acesso em: 29 jul. 2020.

DECROOS, Tom; BRANSEN, Lotte; VAN HAAREN, Jan; DAVIS, Jesse. Actions Speak Louder than Goals. In: KDD ’19: THE 25TH ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 25 jul. 2019. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining […]. [S. l.]: ACM, 25 jul. 2019. DOI 10.1145/3292500.3330758. Disponível em: http://dx.doi.org/10.1145/3292500.3330758.

Revisado por Larissa Sayuri Futino Castro Dos Santos :)

--

--

Mariana Pasqualini
rladiesbh

Estudante de Estatística, aprendiz de ciência de dados e interessada em confeitaria e modelagem 3D.