Serie AI/ML Data Lakes ou Data Warehouses qual a diferença ?

Hamilton Pinheiro
Codengage
Published in
3 min readFeb 15, 2019

--

https://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/

“A informação é o petróleo do século 21 e a análise é o motor de combustão” — Peter Sondergaard, vice-presidente sênior da Gartner

Empresas de sucesso acima da média, normalmente são movidas por dados. A popularização da internet resultou em mais informações sendo coletadas e cada vez mais possibilidades de coleta estão sendo disponibilizadas, e nesse cenário o termo BIG DATA ficou popular, os softwares e arquiteturas projetadas sobre paradigmas de big data são feitos para extrair economicamente o valor de grandes volumes de uma ampla variedade de dados, permitindo a captura, descoberta e/ou análise em alta velocidade.

Com o volume de dados aumentando a cada dia e com uma previsão de mais de 80 milhões de aparelhos (IoT) para entrar no mercado até 2020, as empresas estão fazendo planos para oferecer novas experiências aos clientes e se preparando para um crescimento de dados sem precedentes até o momento.

Com um volume de dados sendo gerado em escala e tempo real, nós precisamos de locais projetados para armazenar esses dados. E para isso temos Data Warehouses e Data Lakes.

Os Data Lakes e os Data Warehouses atualmente são as duas maneiras pelas quais uma empresa pode coletar e gerenciar todo esse volume de dados. O que exatamente é um data lake e um data warehouse? Quão diferentes eles são um do outro?

Data Lake
Um data lake funciona como um repositório centralizado onde você pode armazenar todos os seus dados estruturados e não estruturados, em qualquer escala necessária ao negócio, normalmente você armazenar os dados “como estão”, sem precisar estruturá-los, e pode permitir executar diferentes tipos de análises.

Como normalmente é criado sem um propósito definido em mente, ele cobre todos os dados de origem de fontes variadas isso torna o data lake mais flexível nos possíveis casos de uso.

Data warehouse

Um data warehouse, é um repositório que agrega dados estruturados de várias fontes para fins de comparação e análise tendo grande aderência na área de business intelligence.

Como normalmente um data warehouse é construído com um propósito em mente, ele é altamente modelado, cada dado que você encontra em um data warehouse será cuidadosamente relacionado a todos os outros dados no data warehouse, assim como são padronizados e limpos.

E Qual é a diferença mesmo?

Um data lake é um vasto conjunto de dados brutos e seu objetivo não é definido.

Um data warehouse é um repositório de dados estruturados e definidos que já foram processados para um objetivo/finalidade especifica.

A grande diferença entre o data lake e data warehouse é a estrutura variável dos dados brutos e não processados, uma vez que o lake guarda dados brutos e não processados e o warehouse guarda os dados processados e refinados.

Quais são as vantagens e desvantagens de cada um?

O data lake por armazenar principalmente dados brutos e não processados podem ser utilizados para qualquer finalidade isso torna ideal para utilização em aplicações de inteligência artificial (IA), machine learning (ML) e data science (DS). Esses dados não processados exigem um grande esforço e capacidade de governança de dados.

Os desafios em data lake projetado principalmente com armazenamentos baratos para redução de custo e perspectivas de crescimento, entretanto do processamento de dados brutos, considerando metadados, segurança e governança, podem fazer seu custo subir.

Data lakes podem gerar resultados mais rapidamente, já que muitos dados já estão disponíveis, claro que explorar esses dados exigem mais responsabilidade para encontrar os casos de uso relevantes.

Data warehouses, uma vez que os dados armazenados são estruturados e já processados, fica mais fácil para as empresas encontrar e entender os dados, eles são ótimos para explorar relacionamento entre os dados.

A vantagem do data warehouse, esbarra na pouca flexibilidade, uma vez que para construir, manter e distribuir pequenas mudanças demoram muito.

No data lake a adição de dados é simplificada uma vez que os dados não precisam ser conciliado.

Casos de uso para ambas as soluções, data lakes fornecem uma boa fonte de dados brutos que podem permitir aos usuários utilizar os dados dentro de qualquer contexto definido. Normalmente usados ​​por cientistas de dados para fins de IA, procurando informações que não foram consideradas em outros contextos, para descobrir padrões que não eram conhecidos.

Em breve, apresentarei alguma POC construído um pipeline de data lake.

--

--

Hamilton Pinheiro
Codengage

Senior product manager | Full-stack Data Analyst Developer. ”A confiança não vem do ato de estar sempre certo, mas de não ter medo de estar errado” — Peter T. M