Criando um Data Pipeline do Zero
Um projeto iniciante de Engenharia de Dados, ponta-a-ponta.
Introdução
Engenharia de Dados sempre foi uma área de meu interesse, mas nunca tive tempo de criar um projeto porque preciso me dividir entre muitas coisas como trabalho, família e tudo mais que precisa do meu tempo e atenção. Então, me propus um grande desafio: criar um pipeline de dados do zero em apenas dois dias.
Nossa! — isso parece muito. Mas também parece factível.
Com apenas uma ideia em mente e mais experiência em navegar na área de Ciência de Dados do que em Engenharia de Dados, eu sabia que seria difícil, mas ainda assim: desafio aceito.
Então, neste post, abordaremos o seguinte projeto (GitHub):
Criar um pipeline de dados que:
(1) Obtém conjuntos de dados financeiros de ações de telecomunicações, indicadores econômicos e um índice Dow Jones para o setor de telecomunicações (Telco);
(2) Dar tratamento inicial para validar os dados;
(3) Limpar e organizar os dados;
(4) Prepará-lo para consumo de analistas e clientes em banco de dados PostgreSQL; e
(5) Apresenta um relatório do Power BI como resultado com alguns insights.