Low Code Engineering em implementação de dados

Cloud Data Fusion e Low Code Engineering permitem a criação de pipelines visuais sem exigir habilidades em programação

DataLakers Tecnologia
Blog DataLakers
4 min readApr 16, 2021

--

“Low Code Engineering + Cloud Data Fusion” com o logo Data Fusion ao lado. No fundo, linhas de código em um console.

A ideia de construir um pipeline de dados geralmente vem acompanhada de um número bem considerável de linhas de código, seja a linguagem SQL, Python, R ou outra.

Porém, hoje em dia temos algumas ferramentas no mercado que trazem opções Low Code (ou até mesmo No Code) para engenharia de dados, permitindo a construção de workflows e integrações de dados automatizadas em poucos cliques. Apesar de não suprir todas as necessidades quando o assunto é Data Management, o conceito de Low Code Engineering ajuda a acelerar o desenvolvimento e traz benefícios nas ocasiões corretas.

A ferramenta Google Cloud nesse campo é o Cloud Data Fusion, que permite criar e gerenciar soluções ETL completas por meio de uma interface web, enquanto o Google se encarrega do setup e manutenção da estrutura necessária.

Os principais benefícios do uso da ferramenta são:

  • Acessibilidade: data users que não entendem de programação podem criar e manter seus próprios workflows, caso a empresa não tenha um time de dados dedicado ou este esteja sobrecarregado.
  • Menor tempo de desenvolvimento: possibilita a criação de uma pipeline em poucos cliques.
  • Portabilidade: é possível rodar os workloads diretamente no GCP, em outras clouds ou até mesmo on-premise, já que a solução é baseada em CDAP (projeto open source).

Assim, o Data Fusion se apresenta como uma ferramenta prática para a construção de pipelines self-service, focada em usuários sem habilidades de desenvolvimento e que não têm um time de dados a disposição.

Aproveitando a praticidade da UI

Para utilizar, basta criar uma instância no GCP Console, abrir a interface do Data Fusion e começar a criar seu pipeline e combinar seus dados. Ele possibilita trabalhar de maneira a “apontar e clicar”, construindo a integração de dados visual e rapidamente.

Exemplo de uma pipeline Low Code na interface do Data Funsion

Diversos plugins estão disponíveis para expandir as funcionalidades do Data Fusion. Eles permitem conectar a diferentes sources e sinks, adicionar transformações, conditions e outros. Se surgir a necessidade por um plugin não disponível, é possível construir um próprio utilizando as APIs do Cloud Data Fusion.

Você pode preparar, transformar, combinar e enriquecer os dados no processo, já que a ferramenta conta com transformações embutidas, permitindo que você selecione quais gostaria de aplicar a seu conjunto de dados.

Caso perceba-se a necessidade de aprofundamento em Low Code para a criação de pipelines com maior personalização, é recomendável entender um pouco mais sobre Wrangler functions e diretivas CDAP avançadas.

Depois de finalizar o setup, rode sua pipeline com provisionamento automático através do Dataproc com apenas um click. A plataforma do Data Fusion ainda permite programar, monitorar e gerenciar suas pipelines.

Outras funcionalidade úteis incluem pesquisa por Metadados e visualização da linhagem dos dados.

Pesquisa por Metadados

Abrindo a página “Metadados” dentro da interface, pode-se pesquisar por conjuntos de dados previamente utilizados, o que é útil para encontrar o que já foi processado e pode ser reutilizado. A função permite obter nomes, tipos, esquemas, campos, tempo de criação e informação de processamento dos conjuntos.

Print da página de pesquisa de Metadados no Data Fusion

Linhagem de dados

A função de linhagem de dados contribui para analisar o histórico e como seus dados estão sendo transformados. É possível acessar a linhagem a nível de conjunto de dados ou a nível de campo.

Linhagem a nível de conjunto de dados: mostra a relação entre conjuntos e pipelines em um determinado período de tempo.

Representação de linhagem a nível de conjunto de dados no Cloud Data Fusion

Linhagem a nível de campo: mostra as operações feitas em um campo ou em um conjunto de campos. Por exemplo, quais transformações ocorreram na fonte que produziu o campo selecionado.

Representação de linhagem a nível de campo no Cloud Data Fusion

Certas situações pedem certas ferramentas, não apenas tecnicamente mas também dependendo da situação do negócio.

Cloud Data Fusion é uma boa opção para companhias com carência em desenvolvimento de código ou que necessitem de criação rápida de pipelines sem alta complexidade.

O ideal é avaliar uma variedade de opções e entender qual é a melhor solução para o seu caso, consultando uma assessoria técnica para melhor entendimento sempre que necessário.

Siga nossa página no Medium e no LinkedIn para receber mais conteúdo sobre soluções e tendências do mercado de dados semanalmente!

--

--