O desafio da engenharia de dados
Por que ainda é tão difícil trabalhar com grandes e diferentes volumes de dados?
Ainda que a computação e os serviços em nuvem venham contribuindo imensamente para democratizar a tecnologia para trabalhar com grandes volumes e diferentes formatos de dados, as empresas seguem carentes da competência de engenharia de dados.
Se até há alguns anos bastava ter uma competência razoável em "business intelligence", geralmente derivada dos times de administração de banco de dados, hoje em dia o cenário é completamente diferente e muito mais desafiador.
À medida que as empresas se tornam mais digitais a geração e o uso de dados crescem absurdamente, assim como se ampliam as fontes de dados — que passam a ter origem também de bases externas à organização, nos mais variados formatos.
Outro fator desafiador está relacionado com a necessidade de fazer análises enquanto os dados estão sendo gerados, o que requer uma infraestrutura completamente diferente, mas que se funde às demais esteiras de dados para a formação do data lake ou arranjos similares.
Essa nova dinâmica de ingestão, armazenamento e tratamento de dados é parte das tarefas da engenharia de dados. Os profissionais dessa área são responsáveis por estabelecer as esteiras de dados e disponibilizá-los para as áreas de negócio em estruturas de armazenamento e ferramentas de visualização, começando pelos analistas de inteligência de negócio e indo até os cientistas de dados.
Os entregáveis mais comuns da engenharia de dados estão relacionados com a capacidade de estruturar e administrar data warehouses, datalakes e mais recentemente, os lake houses, sendo este último um conceito em amadurecimento no mercado.
E por que a engenharia de dados é um desafio? Essa não é uma resposta trivial, nem mesmo se aplica na mesma medida em todas as organizações, afinal, cada empresa está em um estágio de amadurecimento quanto ao tema, assim como possui uma necessidade conhecida para o uso masivo de dados.
Tendo dito isto, a saga da engenharia existe à medida que as ferramentas para operacionalizar as estruturas de dados mais robustas requerem habilidades técnicas escassas no mercado, tendo em vista que combinam conhecimentos profundos em serviços de dados em nuvem, lógica de programação e o entendimento de regras de negócio.
Encontrar e reter profissionais que reúnem essa competência não é fácil. Considerando que, em alguma medida, se trata de um trabalho autoral, fazê-los trabalhar em equipe é um desafio adicional. Se a sua empresa está em um estágio de definição da arquitetura do data lake, espere por infinitas possibilidades, se prepare para uso de várias ferramentas diferentes e tenha atenção para o custo de operação e transações com dados.
No âmbito da aceleração digital, não há progresso relevante sem avançar no território de dados e para tal, estruturar e operar um data lake é fundamental.
Como o mercado de tecnologia é dinâmico e orientado aos benefícios reais para o negócio, novas ferramentas estão ganhando relevância justamente com o argumento de reduzir essa complexidade na operação com dados. As mais destacadas são a Snowflake — com um IPO na Nasdaq que atraiu, dentre outros, Warren Buffett e titãs de tecnologia — e a DataBricks, também avaliada em bilhões de dólares.
Diferente da primeira geração de data lakes e serviços de dados em nuvem oferecidos pelos gigantes Amazon AWS, Microsoft Azure, Google Gloud, Oracle Cloud e outros, essa nova geração aposta fortemente na automação das atividades mais técnicas, flexibilidade ainda maior na contratação de recursos computacionais e performance das consultas de dados.
A ideia central é empoderar as áreas de negócio, sobretudo os cientistas de dados e reduzir a dependência das etapas de arquitetura e de engenharia de dados, assuntos geralmente sob influência da área de tecnologia das empresas e comumente, gargalos para a extração máxima de valor dos dados.
Portanto, caro leitor, se a sua organização está avaliando o próximo passo em função do esgotamento técnico dos data warehouses on-premise e dos custos crescentes dos mesmos, talvez o caminho seja pular uma geração tecnológica — a de construção do data lake usando o quebra-cabeça de soluções dos grandes provedores de cloud — e pular diretamente para para as plataformas de data analytics em nuvem, como Databricks e Snowflake.
Cabe ressaltar, no entanto, que essas ferramentas não representam a eliminação ou redução significativa dos esforços de engenharia e, por enquanto, não são tão automáticas como ambicionam. Elas ainda requerem trabalho considerável de engenharia, fazendo-se necessária a construção minuciosa de um business case para assegurar que a conta fecha e os resultados sejam de fato alcançados no seu contexto de negócio.
Como parte do processo de avaliação, recomendo a leitura do relatório de Total Economic Impact elaborado pelo instituto Forrest sobre Snowflake e compará-lo com implementações usando soluções como AWS Redshift ou Google Big Query, que seguem sendo boas alternativas, ainda que não tão intuitivas para os analistas de negócio e cientistas de dados.
Por fim, onde fica a visualização de dados nessa história? Você ainda vai precisar do bom e velho Tableau ou equivalente para trabalhar os resultados de suas análises, pois nenhuma dessas soluções possui alternativa suficientemente boa para cortar esse componente do custo total da solução.