Parte (3/4) — Google BigQuery e nossa primeira consulta

Dando mais um passo em nosso processo, agora vamos criar uma visualização no BigQuery para acessarmos no DataStudio.

Tiago Augusto Ferreira
Academia dos Bots
3 min readAug 11, 2020

--

Vamos realizar algumas consultas.

Parte (1/2) — Pipeline de dados com a API do Cartola

Parte (2/3) — Configurando o Apache Airflow e o Google Storage

Parte (3/4) — Google BigQuery e as primeiras visualizações no DataStudio

Parte (4/4) — Adicionando novos gráficos e filtros personalizados

Com os arquivos já armazenados no Storage (se não viu o tutorial anterior, da um pulo lá para entender o processo), vamos criar nossa consulta no BigQuery e acessar esta consulta direto pelo DataStudio.

Para quem não conhece, o BigQuery é um produto do Google Cloud que permite realizar consultas em dados estruturados e não estruturados utilizando SQL. Com isto em mente, vamos entender nossos arquivos para criar nossa consulta.

Vamos interpretar cada arquivo CSV que obtivemos da api como uma tabela em um banco de dados, tendo o seguinte relacionamento:

Com este entendimento, o que precisamos agora é trazer os arquivos do storage para dentro do BigQuery como tabelas. Para isto, clique no seu projeto conforme indicado na figura abaixo e vá para “criar conjunto de dados”. Na tela que se abrirá, preencha os dados e clique em “Criar conjunto de dados” para finalizar o processo.

Figura 01 — Criando conjunto de dados

Com o seu conjunto de dados criado, é hora de criar as tabelas. Logo abaixo teremos um passo a passo de como fazer isto:

1 — Clique em criar tabela.

Figura 02 — Criar Tabela

2 — Selecione a origem do Cloud Storage.

Figura 03 — Criando uma tabela a partir do Cloud Storage

3 — Clique em procurar.

Figura 04 — Procurando os arquivos CSV

4 — Selecione o seu bucket e dentro dele escolha o arquivo.

Figura 05 — Selecionando o arquivo CSV

5 — Insira o nome da tabela e clique em “Criar tabela”.

Figura 06 — Parâmetros para criação da tabela

Repita este passo para os três arquivos gerados no processo.

Com as tabelas criadas, vamos montar a nossa consulta para agregar os dados das três tabelas. O que faremos é basicamente fazer um inner join e criar três novos campos, estes campos foram criados para fazer uma análise no DataStudio dos jogadores que mais finalizaram na roda, substituindo os valores “null” por 0. Isto é feito pois o DataStudio enfrenta problemas em realizar operações de agregação em colunas com valores nulos.

Query para o BigQuery

Com a query executada, vamos salvar esta visualização para acessarmos direto do DataStudio.

1 — Clique na opção indicada

Figura 07 — Salvando uma visualização

2 — Na tela que abrirá, coloque o nome e salve.

Figura 08 — Salvando a visualização

Com isto, já temos uma visualização dos nossos dados para utilizarmos no DataStudio.

No próxima e última parte, faremos a conexão do DataStudio com o BigQuery e criaremos nosso primeiro relatório.

Vamos lá?!?!

--

--