Streaming de dados for Dummies

Floriano Silva
Engenharia de Dados Academy
4 min readAug 9, 2022

No mundo de dados, sempre vemos palavras como streaming de dados, como uma das características para alcançar entregas em tempo real.

Mas como isso funciona na verdade?

Antes disso devemos entender alguns conceitos:

  • O que é Big Data
  • 4 V's
  • Streaming de pipeline de dados

Big data
Para melhor recepção de nosso tema devemos primeiro esclarecer o termo Big Data, que é definido dentro da tecnologia da informação (TI) o tratamento de grandes conjuntos de dados que precisam ser processados e armazenados . esse conceito se baseia 4 pilares a denominados ( volume, variedade, velocidade e veracidade) chamados de 4 V’s.

Volume
As métricas computacionais cresceram muito rápido e em pouco tempo de Gigabytes já é comum o tratamento de Terabytes e agora lidamos com Petabytes e outros volumes maiores, como Exabytes.

Variedade
Hoje temos a capacidade de capturar e analisar dados estruturados e não estruturados , texto, sensores, navegação, web, arquivos de log etc. Novas Ferramentas estão tonando parte dos projetos, são as ferramentas de machine learning, quase qualquer aparelho eletrônico hoje em dia tem uma estrutura de dados ou programação, mas nem todos podem ser acessados ainda.

Velocidade
A necessidade de tomadas de decisões rápidas no mundo dos negócios e serviços se tornou um fato, e hoje se gasta um minuto para detecção de fraudes, pagamentos , ou recebimentos que podem trazer problemas e prejuízos.
Outro exemplo é analises de dados médicos ou qualquer informação sensível a tempo. Grande parte dos projetos DW/BI(data Werehouse e Business intelligence ), ainda tem latência de D-1, ou seja carregamos o dia Anterior. Ainda essa solução é aplicada em muitos negócios, porem quanto mais próximo do tempo real , maior é a eficácia e o êxito da atividade do seu negócio.

Veracidade
Para colher bons frutos do processo do big data é necessário , obter dados verídicos, de acordo com a realidade. O conceito de velocidade, já está descrito, é bem alinhado ao conceito de veracidade pela necessidade constante de análise em tempo real, isso significa que dados condizem com a realidade daquele momento, pois dados passados não podem ser considerados verídicos para o momento em que é analisado. A relevância dos dados coletados é tão importante quanto o primeiro conceito. A verificação dos dados coletados para adequação e relevância ao propósito da analise é um ponto chave para obter dados que agreguem valor no processo. Os desafios desta área incluem: analise, captura , curadoria de dados , pesquisa, compartilhamento , armazenamento, transferência , visualização e informações sobre privacidade dos dados ,e disponibilização, além das melhores decisões que podem significar maior eficiência operacional e redução de riscos e custos.

O que é Streaming de dados?
Atualmente no mundo as pessoas e lugares estão cada dia mais conectadas e todas as suas formas de transação estão mais ágeis , as empresas tendem a reagir aceleradamente as mudanças do mercado. Na atualidade podemos dizer que estamos bem próximos de alcançar o limite que as pessoas são capazes de responder a velocidade na geração de dados. Para apoiar as tomadas de decisão estão sendo criadas ferramentas cada vez mais capazes em ingestão, processamento, e entrega em tempo real. Todos esses dados gerados em tempo real e com fluxo continuo é o que chamamos de streaming de dados.

Para conseguir tomar decisões com base nestes dados rapidamente, como a geração de alertas em tempo em tempo ou apresentação dos dados no painel de negócios, em tempo real (ou quase em tempo real.) Nessa arquitetura de processamento em tempo real terá componentes lógicos como:

Ingestão:
A arquitetura precisa incluir uma forma de capturar e armazenar essas mensagens em tempo real para serem consumidas por um consumidor de processamento de streaming .
O agente de mensagens deve dar suporte ao processamento de expansão e a entrega confiável.

Armazenamento:
A muitas soluções de big data projetadas para preparar dados para análise e então fornecer os processados em um formato estruturado que pode ser consultado com ferramentas analíticas. Os dados processados em tempo real podem ser armazenados em banco de dados relacional ou noSql.

Processamento:
Depois de capturar mensagens em tempo real, a solução precisa processa -las filtrando, agregando os dados para análise.

Análise e entrega:
A maioria das soluções Big data é gerar insights sobre os dados por meio análise e relatórios , como detecção de fraudes e anomalias no sistema.

Os dados processados em tempo real, após armazenados podem ser usados para analise e relatórios, são usadas ferramentas de visualização para melhor visualizar e publicar relatório em tempo real.
Abstraindo os conceitos acima podemos observar a ilustração abaixo como um exemplo lúdico do tratamento de agua potável em um cidade qualquer.

Relacionando a imagem :

ingestão dos dados começa na extração da água pluvial para uma companhia tratamento.

Armazenamento desses dados acontece como o da água não tratada em um reservatório de água que aguarda esse tratamento.

Processamento e enriquecimento desses dados é compatível com o tratamento das impurezas da agua a purificando.

Analise e entrega é o dado pronto para seu consumo como água tratada que consumimos de inúmeras formas.

Assim terminamos essa parte de streaming de dados for dummies,
até a próxima!

--

--