Data Lake x Data Warehouse: Onde armazenar seus dados?

Entenda as diferenças desses dois tipos de repositórios

DataLakers Tecnologia
Blog DataLakers
4 min readMay 7, 2021

--

Ambas arquiteturas bem difundidas de armazenamento de dados, tanto Data Lakes quanto Data Warehouses são opções viáveis para projetos de Big Data.

Entretanto, cada um desses modelos tem características próprias que podem trazer vantagens ou desvantagens para a operação, dependendo dos tipos de dados a serem adquiridos e de como as informações serão processadas.

Neste artigo, vamos entender quais são essas diferenças e quando um projeto de dados deve optar por um Data Lake ou por um Data Warehouse.

Mas compreender melhor alguns conceitos, começaremos falando sobre os tipos de dados existentes.

Categorias de dados

No geral, podemos ser confrontados com três tipos distintos de dados para armazenamento. São eles:

  • Dados Estruturados: são dados formatados segundo parâmetros específicos, organizados em esquemas relacionais. Os principais exemplos são bancos de dados e planilhas eletrônicas (Excel, CSV, SQL, JSON, etc.)
  • Dados semiestruturados: possuem alguma organização interna, mas não integralmente. Exemplos são alguns arquivos da web como HTML, XML, OWL, etc.
  • Dados não estruturados: são dados que não possuem uma organização interna clara. Uma ampla quantidade de arquivos cai nessa categoria, sejam eles imagens, áudios, vídeos, documentos de texto, e-mails, interações em redes sociais, entre outros.

Sabendo disso, ficará mais palpável uma das principais diferenças entre Data Lakes e Warehouses.

Data Warehouse

Data Warehouses (em português, “armazéns de dados”) são repositórios para armazenamento dos dados estruturados de uma empresa. Eles são considerados bancos de dados relacionais, pois reúnem dados históricos para classificação em blocos semânticos, chamados de relações.

Sua estrutura também conta com subconjuntos de dados em data marts, que facilitam o acesso a agrupamentos específicos de dados e, assim, agilizam a recuperação destes para as análises de BI.

Por contar com dados ‘limpos’ e organizados, os Data Warehouses permitem um acesso prático e análises de alta precisão.

Entretanto, suas divisões geram um arquitetura rígida, mais cara, e mais difícil de ser ampliada. Com isso, a decisão de quais dados serão guardados em um Data Warehouse é crítica, já que uma parcela dos dados brutos ficará de fora.

Assim, temos os principais pontos que caracterizam um Data Warehouse:

  • Armazenam dados estruturados que já foram tratados visando uma finalidade específica;
  • Disponibilizam dados relevantes com prontidão para a gestão estratégica.
  • Tem estruturas mais rígidas, dificultando a escalabilidade;
  • Trabalham com maior custo, tornando o armazenamento de volumes muito grandes de dados inviável.

Data Lake

Diferente do Data Warehouse, o Data Lake (em português, “lago de dados”) um Storage não relacional, por isso, não requer uma estruturação prévia dos dados para recebê-los.

No Data Lake, os dados podem partir de diferentes fontes e serem recebidos em seu formato original (seja ele estruturado, semiestruturado ou não estruturado).

Isso permite que analistas e cientistas de dados possam trabalhar com fontes além dos dados estruturados, abrindo possibilidades para utilizações mais complexas, tanto em Data Science quanto Machine Learning.

Por serem projetados para receberem grandes quantidades de dados, o custo-benefício do Data Lake para armazenamento de Big Data é superior, tornando mais fácil escalar a operação quando for preciso.

Pode-se sumarizar as características do Data Lake em:

  • Armazenam dados brutos e não são restritos a dados estruturados.
  • Por conterem dados não tratados, podem não atender necessidades imediatas de análise.
  • Tem bom custo benefício e fácil escalabilidade, sendo ideais para Big Data.
  • A maior variedade de formatos e o grande volume permitem análises mais complexas, incluindo Machine e Deep Learning.

Portanto, seja para disponibilizar dados relevantes para análises com agilidade; ou para armazenar todos os dados úteis, tanto Data Warehouses e Data Lakes tem finalidades específicas e muito úteis quando o assunto é Big Data.

Qual dos dois é ideal depende de uma avaliação do cenário e da proposta de gestão de dados. Eventualmente, uma combinação dos dois pode ser o mais adequado para atender as necessidades da organização.

Recentemente, algumas empresas vem adotando um modelo de Data Lakehouse, que visa unir as utilidades das duas arquiteturas e reduzir limitações. Visitaremos esse modelo em um próximo artigo.

Acompanhe nossas redes para não perder nenhum conteúdo!

Sobre a DataLakers

Nós oferecemos serviços de governança e gestão de Big Data em nuvem — de forma eficiente e escalável — através das principais plataformas do mercado (GCP, Cloudera, AWS, e mais).

A DataLakers Tecnologia faz parte do iMaps Data Group, grupo que há mais de 10 anos acredita na soma de #Data, #People e #Analytics para a solução de problemas reais.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.