Afinal das contas, como as informações chegam no data lake?

Andre Luis Florencio da Silva
OPANehtech
Published in
3 min readSep 22, 2021

Atualmente o data lake do Banco PAN conta com aproximadamente 400TB de dados… Vamos tentar mensurar em algo mais próximo do dia a dia, por exemplo, 1TB é equivalente a 500 horas de vídeo

Obs: Cada episódio de friends — automaticamente denunciando a idade — tem 22, 23 minutos, são 236 episódios e 10 temporadas 5310 minutes, ou 88 horas e 30 minutos… eita, ainda falta muito para 500 horas. ❤

Fazendo as contas da quantidade de dados…

Legal… mas como esse volume de dados chegou no data lake? Como continuamos aumentando todos os dias, mantendo as informações atualizadas? Isso é um processo que chamamos de ingestão.

Categorizando o modelo de ingestão?

Só para simplificar aqui, ok? Ingerir estamos falando na prática da ação de colocar um dado dentro do data lake.

Hoje, nossas ingestões são sempre pautadas em tipos.

1. Evento

2. Arquivo

3. Banco de Dados

Baseado nos tipos é que começamos a definir qual modelo vamos seguir para ingerir o dado.

Sim, só começamos, vamos mergulhar um pouco mais fundo. 😊

Tipos

Evento — Ele geralmente possui duas formas de consumo, sendo streaming ou batch.

Arquivos — Aqui estamos falando de arquivo de texto, com separador, com zip, sem zip.

Banco de Dados — Este existem vários fabricantes, geralmente lidamos de duas formas, relacional ou não relacional.

Agora que já sabemos o que vai chegar fica um pouco mais fácil direcionar como vamos ingerir esse dado para o lake.

Mapa mental sobre os tipos de dados

Vamos descer mais um pouquinho mais fundo?

Produtores/Origens

Todos os tipos mencionados acima são produzidos por alguém certo? Para o data lake esse alguém geralmente é o sistema de origem — para negócio a origem pode ser um cliente — e cada sistema de origem tem suas particularidades, veja:

Evento — Pode ser que precise ser acionada a cada x intervalo de tempo para responder o dado, como pode ser que ele envie automaticamente o evento (webhook) ou talvez um fluxo contínuo de dado (streaming)

Arquivos — Este está muito relacionado as características do arquivo, como formato, padronização e um fator bem importante, como este arquivo vai chegar no lake ou será necessário buscá-lo

Banco de Dados — Essa origem aqui é entender a estratégia para extrair o dado sem comprometer a origem, como ler uma fonte de leitura, habilitar replicação, transformar esse dado em um evento.

E agora?

Agora que já sabemos o que vai chegar, como vamos capturar esse dado consideramos qual produto, solução e tecnologia pode ser adotada, olha esse exemplo:

É só um exemplo, pode variar de caso para caso e, é claro, existe uma infinidade de outros produtos/soluções.

Bom, neste momento é identificar o que melhor se enquadra com seu tipo de ingestão 😉

Ufa, hora de voltar para superfície.

--

--