Glossário de dados: O que é Data Pipeline?

DataLakers Tecnologia
Blog DataLakers
Published in
3 min readMay 27, 2021
SpaceX, via Pexels

Data pipeline, ou pipeline de dados, é um dos principais termos do beabá do mercados de dados.

Não por menos, já que hoje em dia, todos os empreendimentos estão procurando maneiras de integrar dados de múltiplas fontes a fim de gerar valiosos insights de negócio, e uma pipeline é essencial para atingir esse objetivo.

Mas o que é, então, uma pipeline de dados?

Basicamente, uma pipeline de dados é o conjunto de etapas que visam levar dados do ponto A ao ponto B. O ponto A consiste no lugar onde os dados são gerados, ou seja, as fontes de dados ou Data Producers. O ponto B é o destino final dos dados, geralmente as mãos dos usuários, ou Data Consumers.

Entre o ponto A e o ponto B, os dados passam por diversos processos (transformações, integrações, etc.) para chegarem no destino tratados, de modo a serem aplicáveis na finalidade desejada.

A complexidade das pipelines varia dependendo da necessidade do negócio, já que uma pipeline criada para BI tem demandas diferentes em relação a uma pipeline criada para servir modelos de Machine Learning.

A composição de uma pipeline

No processo de movimentar os dados brutos até o destino final, estão envolvidas múltiplas etapas ou componentes. Vamos discuti-los abaixo.

Origem: Fontes de dados podem ser desde bases de dados relacionais até dados de aplicações SaaS. A maior parte das pipelines puxa dados brutos de múltiplas fontes através de chamadas de API, webhooks ou outras formas.

Destino: Os dados podem estar sendo direcionados para um storage, como um Data Warehouse ou Data Lake, ou diretamente para uma aplicação de analytics.

Transformação: Referente às operações que modificam os dados, incluindo padronização, ordenação, deduplicação, validação ou verificação; todas as transformações necessárias para deixar os dados “limpos” e prontos para análise.

Dataflow: Consiste no movimento dos dados da origem até o destino, incluindo as transformações que serão aplicadas sobre eles e silos de dados pelos quais vão passar. Uma das abordagens possíveis (e mais utilizadas) para esse fluxo é a ETL, que significa extract, transform, load (extrair, transformar, carregar).

Processamento: Apesar de ser relacionado ao Dataflow, o processamento pode variar de acordo com o volume de dados e a velocidade com que se pretende processar os mesmos.

Um bom exemplo é o Map Reduce, que processa grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.

Ao final do processamento, o MapReduce agrega todos estes conjuntos de dados que estavam separados em múltiplos processadores e retorna o resultado consolidado para seu output.

Storage: São os compartimentos nos quais os dados serão armazenados ao longo da pipeline. A escolha dos tipos de Storages utilizados depende de alguns fatores como volume de dados, tipos de dados, frequência das queries etc.

Workflow: Workflow se refere ao sequenciamento e dependências dos processos. Trata-se de gerenciar o agendamento, execução, distribuição e outras relações durante a pipeline. Aqui também entram os conceitos como upstream e downstream jobs.

Monitoramento: Pipelines de dados precisam ser monitoradas de perto para garantir a integridade dos dados. Em caso de qualquer falha ou variação brusca de performance, como uma rede congestionada ou queda de conexão, deve haver um mecanismo que alerte os administradores de imediato.

Pipeline de dados — ou Data Pipeline — é um conceito fundamental para compreender as estruturas de engenharia de dados atuais.

Esse texto buscou trazer a definição e a explicar a constituição de uma pipeline, mas sem dúvida cada tópico trazido aqui pode ser extensivamente aprofundado.

Para conhecer mais sobre conceitos e ferramentas de engenharia de dados, aproveite o conteúdo do canal da DataLakers no Youtube.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.