Qual o significado das nomenclaturas utilizada no data lake?

Andre Luis Florencio da Silva
OPANehtech
Published in
3 min readDec 1, 2021

Glossário, dicionário de palavras de sentido obscuro ou pouco conhecido.

Pronto, esse post será para tirar a parte obscura sobre algumas palavras e termos que usamos aqui no lake do Pan. \0/

Aqui no Pan o local de armazenamento do dado possui algumas classificações (camadas), hoje vamos fazer sobre 3 delas, ok?

Raw

Traduzindo… bruto, em estado natural, não preparado.

Pedra de ouro

Portanto todos os dados que são armazenados em nossa camada raw, são dados que não possuem transformação, ou seja, ele é um espelho da origem.

Tem um foco para saber exatamente como o dado nasceu na origem e aplicar estudos, porque aplicar esses estudos em outras camadas pode trazer uma resposta inapropriada uma vez que o dado já possui um trabalho.

Curated

Nesta fase a origem do dado é a raw e tem como principal objetivo lapidar o dado.

Camada raw possui o dado em seu estado bruto, então pode ter origem que possui dado duplicado, sem padronização, fora do melhor formato e isso dificulta bastante para quem consome o dado.

Curated entra em cena para ajudar nessa “triagem” do dado com o objetivo de simplificar a vida de quem consume o dado, limpando ele (removendo dado duplicados por exemplo), aplicando padronização e melhor formato para esse dado.

Spec

Essa aqui vai ter o dado especializado, mas o que isso quer dizer?

Brinco de ouro

É um dado que já vai estar trabalhado, com objetivo de gerar uma visão especifica, para uma tomada de decisão, uma analise já construída sobre o dado, aqui vai alguns exemplos:

Quantos telefones você já teve na vida? Ok, essa resposta a raw pode te ajudar.

Qual é seu telefone atual? Esse dado a spec vai te ajudar a responder mais rapido e melhor.

Qual telefone você ficou por mais tempo? Essa resposta a raw pode ser melhor porque pode elaborar um estudo mas podemos gerar um spec com essa informação ;)

Alias as tabelas não nascem na spec, toda spec é uma derivação de outra camada.

Resumindo…

Existem alguns mais aqui que não comentei, como stage, legacy, landing zone… o que é legal ter em mente é que esses termos são bem comuns no mercado e por fim quando surge a pergunta:

Onde está o dado?

A resposta, normalmente fala mais que o local físico, ela responde também o estado de como a pessoa vai encontrar esse dado

Está na spec!

Já sabe que tem uma regra de negócio/visão que não existe por exemplo na Raw.

--

--