Parte (1/4) — Um fluxo para extrair dados da API do Cartola FC

Vamos criar um processo desde a extração dos dados da rodada até a criação de uma visualização no Data Studio

Tiago Augusto Ferreira
Academia dos Bots
2 min readAug 11, 2020

--

Super Campeões ❤

Começou o Brasileirão (apesar do momento, condições, etc…) e junto com ele o fantasy game Cartola FC. Sempre gostei muito de futebol e nas primeiras edições do jogo eu fui um jogador assíduo, porém, ao longo dos anos deixei de jogar. Este ano, após conhecer ESTE REPOSITÓRIO por meio da newletter do Data Hackers me animei novamente, montei meu time e resolvi utilizar esta oportunidade para aplicar os conceitos de ciência de dados que venho estudando. Após a histórinha, vamos ao projeto.

No projeto resolvi experimentar como seria fazer um trabalho de “ponta a ponta” com os dados, ou seja, coleta de uma API, tratamento, armazenamento em algum storage, agregações e visualização. Para isto, utilizei a estrutura do Google Cloud Plataform para isto e documentarei o processo nesta série de postagens para quem tiver interesse em replicar.

Ferramentas e processo

A estrutura é composta pelos seguintes produtos:

Google Cloud Composer: O Composer é uma implementação do Apache Airflow, uma ferramenta que conta com uma estrutura para apoiar a orquestração de fluxos de trabalho. Toda a programação é feita em Python, o que facilita bastante para quem já trabalha com a linguagem em ciência de dados.

Google Cloud Storage: Para armazenarmos os arquivos gerados, utilizaremos o serviço de storage.

Google BigQuery: com os arquivos já armazenados no Storage, utilizaremos a ferramenta de consultas BigQuery para fazer algumas agregações nos dados e disponibiliza-los para a visualização.

Google DataStudio: por último, utilizaremos a ferramenta para exploração e criação de relatórios para gerar um dashboard simples com alguns dados obtidos do BigQuery.

Para não ficar muito grande esta postagem, deixarei aqui o índice para o passo a passo do projeto.

O dashboard utilizado como inspiração para a criação do tutorial pode ser observado AQUI.

Parte (2/3) — Configurando o Apache Airflow e o Google Storage

Parte (3/4) — Google BigQuery e as primeiras visualizações no DataStudio

Parte (4/4) — Adicionando novos gráficos e filtros personalizados

Obrigado e nos vemos na parte 2.

--

--