Data Lake x Data Warehouse: Qual é a melhor opção para a minha empresa?

Isabela Blasi Valduga
Indicium Engineering
4 min readApr 22, 2020

Com o advento do big data, empresas estão cada vez mais sedentas por tecnologias de análise de dados. Para atender a essas necessidades, é preciso obter, transformar e armazenar dados em um local acessível e escalável.

Hoje, existem duas opções práticas e eficientes quanto ao armazenamento de dados: o data warehouse e o data lake. Ambas soluções são viáveis para implementação de projetos de big data, no entanto, devem ser avaliadas caso a caso, pois apresentam diferenças técnicas e conceituais em termos de arquitetura e finalidade.

Ao contrário de data lakes, data warehouses são elementos obrigatórios na construção de soluções de big data de grande escala, ou seja, é virtualmente impossível construir um projeto completo de big data sem a implementação de um DW. Mas isso não quer dizer que uma solução se sobreponha à outra.

Tudo pode parecer um pouco confuso, mas não se preocupe! Esse post vai esclarecer tudo o que você precisa saber sobre data warehouses e data lakes.

As Diferenças entre Data Lakes e Data Warehouses

Formato dos dados

Você pode imaginar um data lake como um lago de dados, que contém informações de diversos tipos e tamanhos diferentes. Ao contrário de um data warehouse, que armazena apenas dados estruturados, o data lake permite o armazenamento de todos os tipos de dados — estruturados, não estruturados e híbridos — em um só lugar. Portanto, é um repositório muito mais amplo, que possibilita análises adicionais e menos restritivas que um DW, como pesquisas de texto completo, análises de big data em tempo real, machine learning etc.

Armazenamento

Data Lakes são repositórios enormes e baratos, capazes de armazenar grandes quantidades de dados estruturados e não-estruturados. Em oposição aos Data Warehouses ou Data Marts, que são otimizados para consultas específicas e “perdem” dados pós-agregação, os data lakes armazenam os dados brutos, sem perdas, que podem ser futuramente utilizados tanto em um Data Warehouse quanto para consultas analíticas diretas.

Custos

Armazenar dados em um data warehouse não é algo simples, tampouco barato. Não é possível simplesmente carregar dados aleatórios ao DW. Antes disso, é preciso preparar, transformar e estruturar grandes volumes de dados — e esse processo é algo extremamente custoso para as empresas.

Data lakes, por serem estruturas mais flexíveis e menos rígidas, não demandam tantos esforços para transformação e estruturação de dados e por isso são mais baratos.

Uma alternativa muito usada para extrair o melhor das duas soluções é a integração de um DL dentro de um DW. Esse processo é mais simples e quase nunca requer a estruturação dos dados antes para o seu carregamento no DW.

Usuários

Analistas de negócios e stakeholders constituem a maioria dos usuários de grandes data warehouses. Em geral, eles utilizam essas soluções para extrair insights dos dados e integrá-los na tomada de decisão estratégica. Por outro lado, os data lakes são mais explorados por engenheiros e cientistas de dados com a finalidade de armazenar grandes volumes de dados temporariamente ou conduzir data-experiments.

Cuidado com o pântano!

A facilidade e baixo custo de armazenamento geram uma tentação de incluir todo e qualquer dado gerado pela empresa no Data Lake, sem organização e documentação. Nesses casos, o DL pode ser tornar um “pântano de dados” (do inglês, Data Swamp) e perder sua funcionalidade original. Em resumo, Data Lakes e Data Warehouses são estruturas complexas que devem ser desenhadas e implementadas por profissionais com experiência no assunto.

E agora, devo investir em um Data Lake ou Data Warehouse?

Muitas empresas nos procuram com a seguinte dúvida: “O que é melhor, um data warehouse ou um data lake?”. Não há uma única resposta para essa pergunta. Como demonstramos no decorrer desse post, ambas soluções são diferentes e têm prós e contras, portanto é difícil sinalizar qual delas é “a melhor”.

Ao invés disso, a pergunta que deve ser feita é: “Qual é a melhor abordagem para a minha empresa?”. A escolha entre uma opção ou outra depende de elementos intrínsecos dos clientes, como porte da empresa, as limitações e objetivos dos projetos de big data.

Em muitos casos, não é preciso optar!

Apesar das diferenças, data lakes e data warehouses são ferramentas complementares, que geram muito valor quando trabalham em sincronia. Por isso, muitas vezes recomendamos a integração das duas soluções. Isso acontece quando empresas nos procuram para fazer projetos de big data, mas também precisam armazenar dados brutos para realizar consultas analíticas rápidas. Nesses casos, os dados iniciais são armazenados em seu formato bruto no data lake, e depois passam pelo processo ETL \ ELT que transforma e carrega essas informações no data warehouse para análises futuras.

Percebe-se que quando ambas soluções operam de maneira integrada e harmônica, o potencial do big data é alavancado para a tomada de decisão e as organizações obtém uma série de vantagens como: maior custo-benefício, otimização de processos e tempo.

Conclusão

Data warehouses e data lakes são ferramentas complementares que oferecem um mundo de oportunidades para as organizações. Por isso, ter que escolher entre uma delas pode ser um processo confuso. Em geral, o mais importante é analisar suas vantagens, desvantagens e assim optar por aquela que é melhor fit para o seu negócio.

--

--