Uma breve jornada de dados — Level 2

Teo Calvo
Gamers Club - Escuro Baixo (de 🏡)
2 min readSep 2, 2022

Nas semanas seguintes, Lia e Sueli pesquisaram sobre construções de Datalake e usaram algumas arquiteturas de referência. Fizeram diversos benchmarks com empresas que já passaram por aquele momento que elas estavam vivendo. Uma leitura que recomendam é do André Sionek: What I learned from being a startup’s first Data Engineer .

Juntas, também fizeram diversas simulações nas calculadoras de cloud providers, buscando entender os custos envolvidos para tomarem as melhores decisões.

Aproveitando o desenho que fez para o case, agora Lia tinha condições de definir os componentes mais próximo da realidade da GC. Após algumas rodadas de conversas com o time de desenvolvimento e infraestrutura, o seguinte desenho foi posposto:

  • DMS (Data Migration Service): Realiza a carga full-load e incremental (nier-realtime) a partir do binlog dos bancos de dados, persistindo em .parquet no S3.
  • Kinesis Data Firehose: Consome mensagens de tĂłpicos SNS que as diferentes aplicações publicam seus eventos, persistindo em .json no S3.
  • EMR: Clusters com Apache Spark como engine para processar os dados entre as camadas criadas.
  • Apache Airflow on K8S: Orquestrador de trabalhos com DAGs, onde cada uma deveria rodar em um pod independente, possibilitando escalabilidade.
  • S3 Raw: Datalake, camada bruta onde recebe apenas inserções de dados.
  • S3 Bronze: Dados consumĂ­veis, rĂ©plica dos dados de bancos da aplicação. Mesmo schema de dados e volume.
  • S3 Silver: Dados curados, padronização de schemas, e governança. Primeiros database de contexto de negĂłcio sĂŁo criados aqui.
  • S3 Gold: Dados agregados e prontos para consumo de ferramentas de BI.
  • Redshift: Data Warehouse com dados a serem disponibilizados para outras áreas e ferramentas de BI.
  • Metabase: Ferramenta para visualização de dados, plugada no Redshift.
  • GitHub: RepositĂłrio com cĂłdigos das DAGs e Spark Jobs que seriam executados em produção.

Bom, parece que Lia e Sueli tinham um plano! Agora era o momento de colocar a mão na massa! Porém, engenharia de dados era apenas uma das responsabilidades de Lia, tendo que estar próxima também de analytics, onde Rubens estava cheio de tarefas e ansioso para os próximos passos em ciência de dados.

Vale lembrar que, embora tivesse capacidade de inserir os componentes na arquitetura, implementá-los com as devidas integrações eram um trabalho que nunca havia realizado. Com apenas Sueli como engenheira de dados no time, fazia sentido trazer alguém mais sênior para ajudar nesta construção?

--

--