O que são as zonas de um Data Lake?

E por que são vitais para a governança de dados

DataLakers Tecnologia
Blog DataLakers
2 min readJun 14, 2021

--

Estruturar um Data Lake é um projeto que pode ganhar complexidade facilmente, já que essa arquitetura visa armazenar um volume imenso de dados, provenientes de diversas fontes.

E caso haja um descaso com a organização, toda esse complexidade pode se tornar um emaranhado de problemas bem rápido. Falta de controle sobre quais informações estão ou não estão disponíveis, onde elas se encontram, por quanto tempo são válidas ou quem deveria ter acesso a o que; esses são só alguns dos questionamentos que podem surgir.

Para evitar esse cenário, é essencial a garantia de aplicação da governança de dados, tanto em rotinas operacionais quanto nos próprios frameworks utilizados na arquitetura.

A prática da divisão em zonas ajuda na organização e governança dos Data Lakes, evitando que a estrutura acabe descontrolada e desorganizada (virando um Data Swamp).

Enquanto determinadas situações podem necessitar estruturações diferentes, o padrão é a divisão do Data Lake em 4 zonas:

  • Transient Zone
  • Raw Data Zone
  • Trusted Zone
  • Refined Zone

Cada uma dessas zonas serve para um propósito específico dentro da pipeline de dados, e também ajudam os usuários a entender quais dados utilizarem para suas necessidades.

Transient Zone

A primeira zona é uma zona transitória, na qual os dados serão ingeridos pelo Data Lake. Aqui já pode-se iniciar o processo de governança com catalogação das origens e tipos de dados que estão entrando, e identificação do início das linhagens.

Depois que os dados ingeridos forem alocados na Raw Data Zone, os arquivos aqui são excluídos, tornando essa uma zona de arquivos temporários.

Raw Data Zone

Uma dos principais diferencias de Data Lakes para Warehouses, já que nessa zona pode-se armazenar com agilidade todos os dados de fontes relevantes, independente de quanto será consumido de imediato.

Como estes dados são brutos, ainda não receberam os tratamentos necessários para serem consumidos em análises tradicionais, mas agregam muito valor por fornecerem aos cientistas de dados uma fonte crua, a partir da qual podem criar suas próprias modelagens para machine learning e AI.

Trusted Zone

Dados alocados nesta zona já foram tratados, sofreram as transformações necessárias para serem consumidos e já possuem garantias de Data Quality, podendo ser considerados exatos e confiáveis.

Refined Zone

Na Refined Zone é possível encontrar dados tratados e enriquecidos, estando prontos para serem consumidos por aplicações externas.

Justamente por esse uso, essa camada costuma ser construída com infraestrutura de bancos de dados relacionais (SQL Server, Oracle, etc.), facilitando a conexão com API’s e sistemas transacionais.

A implementação dessas zonas facilita a aplicação de governança e Data Quality na arquitetura, permitindo um consumo preciso do grande volume de dados abarcado pelos Data Lakes, sem perder a versatilidade da ingestão ágil a partir de múltiplas fontes.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.