Tendências em Engenharia de Dados para 2023

Savio Teles
Data Hackers
Published in
8 min readJan 24, 2023

--

Dados são um componente importante em qualquer indústria e têm se tornado crucial nos negócios, permitindo gerar insights e otimizar as operações das empresas. Eu, como um apaixonado por dados e constantemente buscando novidades nesta área, compilei uma lista de tendências em engenharia de dados no ano de 2023. Estas são minhas opiniões baseadas no estudo de novas tecnologias de engenharia de dados, leitura de artigos científicos recentes, livros e blogs da área.

1. Data Mesh

O termo Data Mesh foi criado em 2019 por Zhamak Dehghani e, atualmente, estamos presenciando um crescimento de interesse enorme nesta área com o intuito de democratizar o acesso aos dados dentro das empresas. O artigo “Data Mesh: indo além do Data Lake e Data Warehouse” apresenta detalhes sobre esta arquitetura que é a última tendência de arquitetura de dados na indústria. Ao contrário de arquiteturas centralizadas e monolíticas baseadas em um data warehouse (armazém de dados) e/ou um data lake (lago de dados), um data mesh é um paradigma arquitetural e organizacional que desafia a antiga suposição de que devemos centralizar grandes volumes de dados analíticos para usá-los.

O Data Mesh (Malha de Dados) segue quatro princípios, que segundo Zhamak, são necessários para qualquer implementação do data mesh atingir os resultados esperados de escala, qualidade e integridade dos dados: (1) arquitetura de dados descentralizada orientada ao domínio; (2) dados disponibilizados como produto; (3) infraestrutura para disponibilizar os dados como self-service; (4) governança federada para permitir a interoperabilidade dos domínios. Cada princípio leva a uma nova visão lógica da arquitetura técnica e da estrutura organizacional.

Em 2023, com o aumento da implementação do Data Mesh dentro das empresas, múltiplas linhas de negócio irão começar a compartilhar e se beneficiar de dados entre elas. Isto permitirá que as unidades de negócio, como marketing, analistas de negócio e executivos explorem os dados para tomarem decisões importantes, sem ter que requisitar estes dados ao departamento de TI. Isto irá reduzir o problema de centralizar a coleta e transformação dos dados nas mãos das equipes de TI que, em muitos casos, estão desalinhadas das necessidades das áreas de negócio da empresa. Outra tendência é o aumento de serviços disponibilizados pelos fornecedores de Cloud públicas para facilitar a implementação do Data Mesh. O GCP, por exemplo, lançou em 2022 a ferramenta Dataplex que fornece uma plataforma de gerenciamento de dados para construção de domínios de dados independentes dentro do data mesh que permite a democratização dos dados na empresa, enquanto mantêm ferramentas de controle de governança e monitoramento dos dados nos domínios. Outra solução que tem ganhado destaque é a solução de plataforma de dados da Dadosfera. Esta plataforma facilita bastante a vida dos profissionais de dados que desejam construir uma solução de Data Mesh na sua empresa, juntando boas-práticas de Data Mesh, Modern Data Stack e Data Ops em uma só plataforma.

2. Confiança nos dados: observabilidade e qualidade dos dados

A evolução das ferramentas e tecnologias de dados permitiram os negócios ingerir, armazenar e analisar um volume de dados sem precedentes. Conforme estas empresas se tornam orientadas à dados e mais stakeholders tomam decisões baseados nos dados, se torna crucial a confiança nestes dados. Por isso, as empresas têm investido cada vez mais recursos para evoluir suas soluções com ferramentas de observabilidade e qualidade dos dados.

Qualidade dos dados é uma forma de avaliar o nível de acurácia e confiabilidade dos dados utilizados e gerados nos pipelines de dados dentro de uma organização. Podemos melhorar a qualidade dos dados dentro da nossa organização através do uso de ferramentas de validação e limpeza de dados, além de estabelecer e garantir o cumprimento de políticas e padrões de governança. Em 2023, as empresas irão focar ainda mais em estratégias e implementação de qualidade de dados, explorando as tecnologias já existentes na cloud e utilizando modelos de aprendizado de máquina para automatizar a identificação e resolução de problemas de qualidade nos dados. Com a IA será possível, de forma automática, validar, detectar anomalias, identificar dados duplicados ou faltando, descobrir dados redundantes e preencher gaps nos dados.

À medida que a solução de gerenciamento de qualidade dados vai se tornando melhor, aumenta o monitoramento da saúde dos dados da empresa. Isto é denominado observabilidade dos dados, ou seja, a habilidade da sua organização para entender o estado dos seus dados baseado nas informações que você está coletando. Organizações com observabilidade de dados pode identificar problemas de qualidade de dados, anomalias, mudanças no esquema e muito mais sobre os sistemas de dados. Em 2023 existe uma tendência de convergir as ferramentas de observabilidade, segurança e análise de negócio para evoluir as soluções de observabilidade de dados. Ou seja, ao invés de entregar esta responsabilidade apenas ao time de dados, existirá um esforço em conjunto para permitir alcançar o objetivo de melhorar a observabilidade de dados. Além disso, irão aumentar investimentos em plataformas de observabilidade que irão suportar processos entre departamentos e garantir que todos tenhas as respostas necessárias de entrega de informações seguras.

3. Contrato de Dados

Um contrato de dados é um acordo entre os produtores e consumidores de dados. Ele se refere ao gerenciamento de dados entre diferentes organizações ou dentro de uma única empresa. Basicamente, os produtores de dados produzem dados seguindo algumas regras pré-estabelecidas, tais como esquema de dados, SLA de acurácia e integridade e políticas de como o dado pode ser utilizado e modificado. Após aceitar o contrato, os consumidores podem criar aplicações com estes dados, garantindo que os pipelines não serão quebrados com mudanças nos dados. O contrato de dados irá impor formatos, restrições e semânticas para mitigar mudanças inesperadas nos dados.

Contrato de dados foi um grande tópico de discussão em 2022 e existe uma tendência de aumento na implementação em 2023. Ele será extremamente importante para manter os produtores e consumidores de dados na “mesma página”. Quanto mais distribuído o dado se torna e quão mais colaborativo for a produção e uso destes dados, mais importante se torna uma solução para assegurar transparência e construir confiança entre times que produzem e consomem os dados.

4. DataOps

As organizações estão se tornando cada vez mais orientadas à dados e, por isso, os princípios ágeis de desenvolvimento de aplicações e monitoramento de aplicações irão se tornar relevante na área de engenharia de dados também. Empresas orientadas à dados irão fazer seus times de DevOps trabalharem junto com os times de dados para construir estas ferramentas, processos e estruturas organizacionais para o braço de negócio.

De forma geral, a abordagem do DataOps implementa os mesmos benefícios de DevOps e QAOps para profissionais de dados. Com o DataOps você pode eliminar a distinção entre equipes de dados e desenvolvimento através do trabalho colaborativo para desenvolver uma visão geral da jornada de aquisição de dados. As respostas aos incidentes serão mais rápidas, os bugs serão corrigidos em menos tempo e uma equipe integrada poderá definir e atualizar metas de desempenho em tempo real. Seus dados serão ágeis, precisos e eficientes em todas as etapas dos processos.

Apesar de ser um tema discutido há algum tempo, a tendência em 2023 é que muitos times de engenharia de dados tirem esta ideia do DataOps da gaveta e realmente comecem a implementação. A adoção de metodologias ágeis nesta implementação irá permitir que empresas de pequeno e médio porte alcancem o próximo nível em análises de dados e tomadas de decisões. Até mesmo startups, com sua urgência típica por dados confiáveis, irão iniciar a implementação de alguns aspectos destas abordagens ágeis de engenharia orientadas à dados.

5. Zero-ETL

Zero-ETL é um tema relativamente novo que acredito que ganhe mais popularidade em 2023. A abordagem zero-ETL permite que o time de engenharia de dados não tenha que construir e manter pipelines de dados para executar operações de extração, transformação e carga de dados (ETL). Ao de executar ETLs, você poderá ganhar acesso direto aos dados e executar consultas diretamente na fonte dos dados. As vantagens são: 1) não existe mais necessidade de construção de pipelines complexos, 2) não precisaremos mais ter duplicação em armazenamento de dados, o que custo dinheiro e performance, 3) os dados estarão sempre atualizados.

A AWS, por exemplo, anunciou em novembro de 2022 o suporte ao Zero-ETL na integração entre o Aurora e o Redshift, onde será possível analisar dados de múltiplos clusters de bancos de dados do Aurora em instâncias do Redshift. Este acesso em tempo quase real a dados transacionais do Aurora irá permitir aumentar a capacidade de análises no Redshift, tais como aprendizado de máquina, compartilhamento de dados e acessos a múltiplos data stores e data lakes para gerar insights de dados transacionais e outros dados. A Microsoft, o Google e o Snowflake também estão investindo bastante em soluções que reduzam a necessidade de construção de pipelines de dados.

Ainda temos um grande caminho pela frente e eu não acredito que o zero-ETL irá acabar com os pipelines de dados de ETL, mas penso que será útil em situações onde os dados precisam ser acessados em tempo real sem a necessidade de transformações complexas sobre os dados. Por isso, em 2023, vários fornecedores de soluções de dados devem investir pesado em ferramentas para facilitar a exploração dos dados sem a necessidade de manter pipelines de dados. Além disso, diversas empresas devem começar a investir ainda mais em 2023 em soluções de zero-ETL como, por exemplo, Neema Raphael, diretor de processamento de dados da Goldman Sachs que disse: “O zero-ETL aumentará nossa capacidade de tornar mais fácil para os engenheiros se concentrarem em aperfeiçoar seu fluxo de trabalho à medida que eles coletam informações completas de forma ágil”.

Referências

--

--

Savio Teles
Data Hackers

Doutor em Ciência da Computação. Pesquisador e desenvolvedor na área de Big Data & Machine Learning há mais de 12 anos.