Data Lakehouse: um novo paradigma na arquitetura de dados

Entenda no que esta arquitetura difere das mais populares atualmente

DataLakers Tecnologia
Blog DataLakers
4 min readMay 13, 2021

--

Luca Bravo, via Unsplash

Conforme a tecnologia de análise e processamento evolui - e junto a ela, as possibilidades de extração de valor dos dados - também aumentam as exigências de desempenho dos repositórios e data bases.

Nos últimos anos, atendendo as demandas atualizadas do mercado de dados, surge uma nova arquitetura denominada Data Lakehouse, que se propõe a unir as principais funcionalidades de Data Lakes e Data Warehouses.

Enquanto Data Warehouses já são há décadas sinônimo de fornecimento de dados confiáveis, acurados e prontamente analisáveis, eles são relativamente custosos para grandes volumes de dados, além de limitados ao armazenamento de dados estruturados, o que não atende plenamente as demandas atuais das empresas, principalmente no campo de Machine Learning.

Data Lakes, por outro lado, surgiram com a proposta de serem um repositório de dados brutos, escalável e econômico, em diversos formatos e independente da categoria dos dados (estruturados, semiestruturados ou não estruturados). Assim, Data Lakes são ideais para projetos de Big Data. Entretanto, deixam a desejar em alguns aspectos, como na falta de suporte a transações e na falta de consistência/isolamento, que torna quase impossível misturar appends e reads ou trabalhos em batch e streaming.

Várias empresas optam por manter as duas arquiteturas em paralelo, o que é funcional e permite usufruir das qualidades de ambas. Entretanto, essa abordagem deixa lacunas para melhorias em áreas como:

  • Duplicidade de dados, já que cria dados redundantes, o que é economicamente ineficiente e pode gerar inconsistências.
  • Custos de armazenamento, já que Data Warehouses são naturalmente mais custosos e Data Lakes não possuem tanto controle sobre redundâncias.
  • Estagnação dos dados, um problema que pode transformar Data Lakes em Data Swamps se não considerado. A maior capacidade de controle e catálogo em Lakehouses ajuda a organizar Big Data com mais clareza e evitar esses desvios.

Por essas e outras limitações que o Data Lakehouse busca superar a divisão entre Data Lakes e Data Warehouses, apresentando uma opção que une o melhor dos dois mundos.

Data Lakehouses

O Data Lakehouse é uma proposta de arquitetura moderna, possibilitada pela implementação de estruturas e recursos de gerenciamento de dados presentes em um Data Warehouse, mas aplicados em storages de baixo custo usados para Data Lakes.

Assim, pode-se realizar as análises ou BI requisitando os dados diretamente de um Data Lake construído em Hadoop, por exemplo. Esse método diminui a sobrecarga na pipeline de dados e manutenção.

Algumas das características principais de Data Lakehouses são:

  • Eliminação de trabalhos simples de ETL: Tradicionalmente, é necessário transformar e carregar dados do seu Data Lake para um Data Warehouse antes de criar consultar ou realizar as análises. Com a utilização de Data Lakehouses, esse processo ETL é eliminado já que a Query Engine estará conectada diretamente ao Data Lake.
  • Suporte a transações: o suporte a transações ACID das Lakehouses garante consistência mesmo com várias leituras e gravações de dados concomitantes por diferentes usuários.
  • Armazenamento separado do processamento: Na prática, armazenamento e processamento utilizarão clusters independentes, o que permite que esses sistemas sejam escalonados para permitir mais usuários simultâneos e maior volume de dados.
  • Conexão direta a ferramentas de BI: Com Lakehouses possibilitando o a utilização de Query Engines como Apache Drill, além de conexão direta com outras plataformas populares de BI como Tableau e PowerBI, o tempo gasto para a conversão dos dados brutos em visualizações diminui significativamente.
  • Suporte a diversas categorias de dados: Por serem compatíveis com dados estruturados, semiestruturados ou não estruturados, Lakehouses implicam em menos limitações, facilitam a ciência de dados e desenvolvimento de novas aplicações.

Opções disponíveis

Várias empresas de Cloud já oferecem produtos que possibilitam a construção de Data Lakehouses, mas também há opções open source eficientes no mercado.

O Google BigQuery é uma das tecnologias que pode ser considerada, já que permite seguir o conceito de Data Lakehouse separando completamente as camadas de armazenamento e computação. Além disso, sendo um produto Google Cloud, permite integração simples com outros produtos GCP para a construção das pipelines.

Azure Synapse Analytics, serviço da Microsoft com integração com o Azure Databricks, é outra opção. Além destes, o Amazon Athena pode ser preferível para quem desejar buildar em soluções AWS.

Quanto à open source, algumas das plataformas adequadas são Delta Lake, Apache Iceberg e Apache Hudi.

Outras opções estão disponíveis no mercado, e no futuro novas devem surgir.

Apesar de ainda deixar algumas lacunas, como a manutenção de sua grande estrutura monolítica e a recência de algumas tecnologias envolvidas, a tendência é que a arquitetura de Data Lakehouse adquira cada vez mais tração, e que tanto o mercado quanto a comunidade de desenvolvimento surjam com ajustes e soluções para as questões pendentes.

Por ora, os benefícios desse tipo de arquitetura são palpáveis para empresas que apostam na análise e ciência de dados com agilidade e custo-benefício, e um Data Lakehouse não deve ser uma possibilidade desconsiderada para os projetos.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.