Qual o significado das nomenclaturas utilizada no data lake?
Glossário, dicionário de palavras de sentido obscuro ou pouco conhecido.
Pronto, esse post será para tirar a parte obscura sobre algumas palavras e termos que usamos aqui no lake do Pan. \0/
Aqui no Pan o local de armazenamento do dado possui algumas classificações (camadas), hoje vamos fazer sobre 3 delas, ok?
Raw
Traduzindo… bruto, em estado natural, não preparado.
Portanto todos os dados que são armazenados em nossa camada raw, são dados que não possuem transformação, ou seja, ele é um espelho da origem.
Tem um foco para saber exatamente como o dado nasceu na origem e aplicar estudos, porque aplicar esses estudos em outras camadas pode trazer uma resposta inapropriada uma vez que o dado já possui um trabalho.
Curated
Nesta fase a origem do dado é a raw e tem como principal objetivo lapidar o dado.
Camada raw possui o dado em seu estado bruto, então pode ter origem que possui dado duplicado, sem padronização, fora do melhor formato e isso dificulta bastante para quem consome o dado.
Curated entra em cena para ajudar nessa “triagem” do dado com o objetivo de simplificar a vida de quem consume o dado, limpando ele (removendo dado duplicados por exemplo), aplicando padronização e melhor formato para esse dado.
Spec
Essa aqui vai ter o dado especializado, mas o que isso quer dizer?
É um dado que já vai estar trabalhado, com objetivo de gerar uma visão especifica, para uma tomada de decisão, uma analise já construída sobre o dado, aqui vai alguns exemplos:
Quantos telefones você já teve na vida? Ok, essa resposta a raw pode te ajudar.
Qual é seu telefone atual? Esse dado a spec vai te ajudar a responder mais rapido e melhor.
Qual telefone você ficou por mais tempo? Essa resposta a raw pode ser melhor porque pode elaborar um estudo mas podemos gerar um spec com essa informação ;)
Alias as tabelas não nascem na spec, toda spec é uma derivação de outra camada.
Resumindo…
Existem alguns mais aqui que não comentei, como stage, legacy, landing zone… o que é legal ter em mente é que esses termos são bem comuns no mercado e por fim quando surge a pergunta:
Onde está o dado?
A resposta, normalmente fala mais que o local físico, ela responde também o estado de como a pessoa vai encontrar esse dado
Está na spec!
Já sabe que tem uma regra de negócio/visão que não existe por exemplo na Raw.