Uma breve jornada de dados — Level 4

Teo Calvo
Gamers Club - Escuro Baixo (de 🏡)
2 min readSep 16, 2022

Após alguns meses de desenvolvimento na nova plataforma de dados, ainda não era possível consumir os dados em bronze. Embora o time estivesse se esforçando para colocar todos os componentes de pé e integrado-os, ainda não existia um pipeline end-to-end, isto é, uma única tabela (ou fonte de dados) passando por todas as camadas Raw -> Bronze -> Silver -> Gold.

Por não dominar a tecnologia que estava sendo empregada, neste ponto, Lia não era capaz de dar o apoio técnico necessário para Roger e Sueli. Em reuniões de alinhamento que fizeram durante este período, conversaram sobre reduzir o escopo do projeto e focar em uma prova de conceito de início ao fim. Assim o time poderia aprender com os desafios de todas as etapas do processo e começar a entregar dados.

Acordaram em focar no essencial para as ingestões e consumos de dados acontecerem, deixando para próximos passos o setup de um catálogo de dados e data lineage. Mas mantiveram a ideia de templates genéricos o suficiente, acreditando que evitariam retrabalho desnecessário.

Fazer para uma tabela ou para 100 é o mesmo esforço — pensaram

Porém, não faziam ideia de que os schemas das tabelas mudassem tanto. Quer dizer, algumas tabelas, em sua origem, tinham campos em formato de .json, que ao serem salvos (pelo DMS) em .parquet, viravam strings. Desta forma o template pensado precisava de constantes modificações para lidar com essas conversão de campos. Quando dava certo para uma tabela, quebrava para outra e assim por diante.

Neste ponto, o nível de preocupação da Lia era ainda maior. Sabia que a equipe estava focada na solução dos problemas, mas já havia se passado meses e mais meses sem que dado algum fosse consumido via datalake. O time de Analytics estava sangrando com o ambiente horripilante que tinham até então. Lia propôs que esquecessem o template e fizessem o código para contemplar a ingestão de uma única tabela, dando certo, poderiam partir para a próxima e assim por diante, até fechar um database completo.

Mas era tarde. Com o mercado super aquecido e empresas sondando bons profissionais, Roger estava de saída da GC. Lia se viu em uma situação muito complicada perdendo sua referência em Data Engineering. Roger era é a pessoa que mais dominava o que havia sido realizado até então, bem como os próximos passos do projeto. Mais importante que isso, Sueli estava desanimada por estar, novamente, sozinha em Engenharia de Dados.

Quais opções neste momento restavam à Lia?

  • Encontrar uma pessoa de calibre tão alto quanto Roger? Essa pessoa já chegaria jogando com Sueli? Levaria ainda mais 6 meses para entregarem algum dado?
  • E se houvesse uma mudança em toda arquitetura da plataforma?
  • Era o momento de Lia desistir de trabalhar com games, pedindo demissão?

--

--