Uma breve jornada de dados — Level 3

Published in

Gamers Club - Escuro Baixo (de 🏡)

2 min readSep 9, 2022

Tendo em mente o perfil de profissional que estava buscando, Lia abriu uma vaga para engenharia de dados. Em meio a tantos currículos e entrevista, surgiu Roger, um experiente engenheiro de dados com fortíssimo background técnico. Dado seu grande destaque, foi contratado para ser a pessoa mais sênior no time, com cargo de especialista.

Roger é esperto e sabia exatamente quais componentes seriam necessários para aquela arquitetura parar em pé, não tendo dificuldades de entender esquema que Lia fez junto à Sueli. Além de, claro, sugerir alguns ajustes no desenho inicial. Como por exemplo, a substituição do Redshift pelo Athena, tornando a plataforma um pouco mais barata, bem como a adição do Glue Catalog para funcionamento adequado do Athena.

Agora sim! Com uma referência em engenharia de dados no time, Lia viabilizou que o time desse os primeiros passos da construção do datalake. Delegou ao Roger que fizesse as definições técnicas e desenvolvimento do novo parque de dados, onde Sueli ficaria bem próxima para aprender e evoluir enquanto júnior.

Com apenas Rubens, se equilibrando para atender as necessidades de 6 squads de produto, era necessário trazer novos Data Analyst para o time. Desta maneira, Lia dedicou sua energia em novas contratações e estruturações de processos em análise e ciência de dados.

Roger e Sueli junto ao time de infra, subiram o DMS com Terraform e as primeiras ingestões de dado em Raw começaram a chegar no datalake. Assim, diversos bancos de dados já tinham as cargas full-load e cdc (change data capture) funcionando. O próximo passo seria usar o Apache Spark como motor de processamento destes dados, levando-os para novas camadas.

Ao longo do tempo, o time de Data Eng. testou diversos aprimoramentos na plataforma, como: uso de Great Expectations, Amundsen, Spark on K8S, GitSync. Em paralelo a isso, subiram o Apache Airflow on K8S em ambiente de desenvolvimento (local) e homologação, bem como adição dos .jars necessários no S3 para que o Delta funcione corretamente no EMR. Tendo o ambiente de homologação pronto, iniciaram os testes de templates com Spark Summit no EMR para realizar as primeiras cargas de dados Raw -> Bronze.

A ideia destes templates era ter o maior aproveitamento de código possível, generalizando os casos de uso para evitar retrabalho ao migrar diferentes fontes de dados. Com isso, no surgimento de novos dados, bastaria preencher um arquivo .yaml, que todos os jobs necessários seriam criados pelo Apache Airflow e disparados para o Apache Spark executar nos clusters EMR.

Mas Lia começou a ficar preocupada.

Uma breve jornada de dados — Level 3

Written by Teo Calvo