Criando um Data Pipeline do Zero

Gustavo Santos
Data Hackers
Published in
13 min readJan 19, 2024

--

Um projeto iniciante de Engenharia de Dados, ponta-a-ponta.

Photo by Mike Benna on Unsplash

Introdução

Engenharia de Dados sempre foi uma área de meu interesse, mas nunca tive tempo de criar um projeto porque preciso me dividir entre muitas coisas como trabalho, família e tudo mais que precisa do meu tempo e atenção. Então, me propus um grande desafio: criar um pipeline de dados do zero em apenas dois dias.

Nossa! — isso parece muito. Mas também parece factível.

Com apenas uma ideia em mente e mais experiência em navegar na área de Ciência de Dados do que em Engenharia de Dados, eu sabia que seria difícil, mas ainda assim: desafio aceito.

Então, neste post, abordaremos o seguinte projeto (GitHub):

Criar um pipeline de dados que:

(1) Obtém conjuntos de dados financeiros de ações de telecomunicações, indicadores econômicos e um índice Dow Jones para o setor de telecomunicações (Telco);

(2) Dar tratamento inicial para validar os dados;

(3) Limpar e organizar os dados;

(4) Prepará-lo para consumo de analistas e clientes em banco de dados PostgreSQL; e

(5) Apresenta um relatório do Power BI como resultado com alguns insights.

--

--

Gustavo Santos
Data Hackers

Data Scientist. I extract insights from data to help people and companies to make better and data driven decisions. | In: https://www.linkedin.com/in/gurezende/