Como meus conhecimentos de Data Science me ajudaram no Triatlo

Uma análise 360º para ganhar um atalho na melhora da sua performance

Para quem não sabe, Triatlo é uma competição onde envolve três esportes diferentes: natação, bicicleta e corrida. A modalidade Xterra é um triatlo um pouco diferente do tradicional já que as provas de bicicleta e corrida são feitas em trilhas. Eu sei que você deve está meio perplexo e minimamente curioso para saber como apliquei meus conhecimentos de data science para obter um rendimento melhor.

Mas antes, irei dar uma breve introdução do meu treino, mostrando como meu mindset de projetos de machine learning, me ajudaram na trajetória.

Custo-benefício

Todo meu treino foi mais direcionado para natação por algumas razões.

  • Eu surfo há mais de 11 anos e, quem surfa, sabe: o condicionamento é totalmente diferente de quem costuma nadar no mar;
  • Eu nunca nadei no mar mais de 300 metros sem minha prancha de surf;
  • Já passei por um pseudo trauma quando era mais jovem no mar.

Devido a isso, seria mais proveitoso se focasse em natação e o restante continuasse fazendo o que eu costumo fazer: mountain bike nos finais de semana e corrida na praia. Portanto, tentava treinar todos os dias da semana durante 30 a 40 min na piscina com a perna travada. Com isso, ajudou a deixar minhas braçadas mais fortes e repousar as pernas para a bike e corrida.

Legal, mas onde entra Data Science nessa história?

Bem, primeiro meu "baseline model" foi o meu treino. Treinei para completar a prova bem, sem ambição de tempo ou muito menos pódio. Queria fazer uma prova bem tranquila, observando e aprendendo sobre a modalidade, percurso, competidores e performance do meu corpo.

Um baseline é o resultado de um modelo/solução básica. Então, normalmente se cria um baseline e um modelo mais complexo que consiga melhor resultado. Ele funciona como um referencial para o seu modelo.

Meu "hyperparameters" foram as horas, dias e esforços físicos dedicados aos treinos de cada esporte. Onde fui ajustando e otimizando os que influenciavam na natação apenas, já que os demais a minha perfomance já me bastava.

Quando cruzei a linha de chegada, em minha perspectiva, observei vários detalhes que poderiam ser melhorados para uma próxima etapa. Além do que, algumas coisas que eu achava que poderiam ser uma grande dificuldade, acabaram nem sendo. Sem contar o benchmark que eu fiz, assistindo atletas mais experientes competindo.

Como um bom analítico, tudo que eu analisei de forma qualitativa precisava ser comprovada quantitativa. Então, foi ai que Data Science entrou na história. Meu script em Python se encontra no meu repositório do GitHub.

Scraping

A primeira etapa foi realizar um scrapping no site do Xterra, assim que o resultado dos atletas de triatlo amador fosse divulgado.

Histograma

Em seguida, após ter colocado todos os resultados em forma de tabela, apliquei um histograma para saber o tempo médio de cada esporte.

Logo percebi que o resultado de todos na natação se encontrou bastante concentrado em um intervalo de tempo 20–25min, com um gap de mais de 10 pessoas para o segundo maior tempo. Contudo, bike tem um cenário um pouco diferente, a distribuição se encontra mais espalhada que nos faz perceber a formação de dois blocos de resultado. O primeiro, os que obtiveram um tempo menor que 70 min; e segundo, os que obtiveram maior que 70 min. Essa conclusão se deve a baixa frequência do intervalo 65–70min. E por fim, não menos importante, a corrida que tiveram dois intervalos com alta frequência e bem próximo.

Apenas nesse gráfico chego nas seguintes conclusões:

  • Conseguir terminar a natação dentro de um intervalo de 20–25min;
  • Conseguir terminar a bike dentro do primeiro bloco;
  • Conseguir terminar a corrida dentro do intervalo de 30–35min.

O próximo histograma tem o mesmo objetivo do anterior, porém, agora é observando os tempos da primeira e da segunda transição.

Apenas nesse gráfico chego nas seguintes conclusões:

  • A primeira transição é aceitável levar até 1:30min;
  • A segunda transição deve ser concluída em até 1min.

O próximo histograma é para identificar as categorias com mais atletas. A grande parte dos participantes estão entre 30–44 anos.

Gráfico pizza

Em termos percentuais, as três categorias que representam 30–44 anos representam 68% do total de atletas amadores.

Gráfico de dispersão

Entrando mais a fundo na categoria em que eu participei M2529 anos, gostaria de saber se houve posições acirradas, ou algum comportamento padrão em relação ao tempo de prova. Será que a partir de um específico tempo, os atletas tendem a diminuir o tempo de diferença entre eles? Esse tipo de pergunta que eu gostaria de responde com esse gráfico.

Dentro da categoria em que eu participei, tiveram duas oportunidades em que a diferença entre os tempos dos atletas foram menos de 5 minutos.

Gráfico de dispersão e histograma

Para fechar, gostaria de entender a relação de cada esporte no resultado final. Para isso utilizei o gráfico de dispersão das relações de todas as variáveis.

Matriz de correlação

Embora o gráfico de dispersão seja suficiente para entender a relação das variáveis, a matriz de correlação acaba sendo mais precisa por mostrar a correlação em valor variando de -1 à 1.

Utilizei a matriz de correlação em todos os atletas e para os atletas da minha categoria. Nos dois cenários, o tempo de bike tem uma forte influência no tempo final de prova, seguida por corrida e natação. Na minha categoria, esses resultados acabam sendo um pouco mais correlacionados. Mas o que chama atenção para a matriz de correlação da minha categoria é a forte influencia do tempo da primeira transição no resultado final de prova.

Matriz de correlação de todos os atletas
Matriz de correlação da categoria M2529

Esses foram todos os insights que eu consegui concluir depois da minha primeira prova de triatlo.

Da mesma maneira que eu utilizei conceitos básicos, você pode usar em seu dia a dia para obter respostas mais concretas e conclusões mais precisas.

A propósito, desculpa pela bagunça no script e por não ter deixado comentado. Caso tenha alguma dúvida, só mandar mensagem!

Data Science pode ser aplicado em quase em tudo. Está esperando o que para extrair bons insights ?!