DataOps: Pensando a estruturação de pipelines do início ao fim

Entenda o framework de gestão de dados que entrega a agilidade e eficiência necessárias para o mercado atual

Published in

Blog DataLakers

5 min readMar 10, 2021

Quando o assunto é iniciar ou ampliar seus trabalhos com Big Data, é essencial que o projeto de infraestrutura não seja pensado como uma tarefa pontual. Com a dinamicidade do mercado atual, adaptações e experimentações são uma necessidade constante, e não entender isso desde cedo pode resultar em muitas horas de trabalho perdidas.

Com isso em mente, é preciso o entendimento do trabalho com dados como um processo de melhoria contínua, uma cadeia que se inicia nos diagnósticos das necessidades da empresa, passando por toda a estruturação do armazenamento, manutenção dos ambientes e, por fim, consumo pelo usuário final, que também faz parte do processo. Tudo isso precisa estar sendo constantemente atendido e ajustado com agilidade e competência.

O conceito de DataOps surge com essa compreensão. No DataOps, a gestão de dados é uma prática colaborativa durante todo o fluxo, conseguindo conectar com mais eficiência as práticas às demandas finais, por manter rotinas de feedback e melhorias. Pode-se resumir os focos dessa metodologia em:

Aprimorar a flexibilidade de todo o pipeline, permitindo alterações ou atualizações mais ágeis
Ampliar a automação nos processos
Melhorar a comunicação entre Data Managers e Data Consumers

O DataOps aparece como opção para acelerar processos e preencher lacunas. Mas é importante entender de onde surge essa urgência por atualização.

Fazendo a gestão (da complexidade) dos dados

O entendimento que os dados são parte essencial de qualquer negócio já está difundido, e os benefícios de seu uso também já são fatos batidos. Mais e mais as empresas se aprofundam no mundo do Big Data, buscando usos mais sofisticados e insights mais valiosos.

Por outro lado, isso vai tornando a gestão dos dados uma tarefa cada vez mais complexa. Na era da inovação, o desenvolvimento rápido dos negócios e produtos pode extinguir o valor de antigos tipos de dados e demandar novos em pouco tempo. Isso pode exigir expansão da capacidade de armazenamento, compatibilidade das bases com novos formatos, tratamentos distintos para dados não otimizados e mais. E quando todo esse processo terminar, provavelmente novas demandas terão surgido.

Ter agilidade suficiente para esse ciclo não é uma tarefa fácil.

E devido ao aumento da complexidade, erros estão mais custosos do que nunca. Com grandes volumes de dados, falhas de processamento ou alocação de aplicações não otimizadas podem custar diversas horas, ou mesmo dias. Ainda, podem causar quebra de relatórios ou dashboards, explicitando o erro para os departamentos dependentes e causando um transtorno generalizado.

A ausência de auditoria constante também pode gerar problemas, levando ao uso de dados aparentemente funcionais, porém errôneos. Os acompanhamentos podem estar respondendo e as visualizações funcionando, mas alguma falha que leve à captura equivocada na amostragem da requisição pode gerar relatórios que sustentem decisões de negócios equivocadas, causando prejuízos potenciais muito grandes. Evitar esses falsos positivos deve estar entre as prioridades dos gestores de dados.

DataOps na prática

DataOps é uma metodologia que propõe uma gestão ágil, colaborativa e, para isso, mais automatizada dos dados. Esse framework se baseia nos modelos de DevOps e Lean Manufacturing, aplicando métodos ágeis para deixar processos mais enxutos e reduzir o tempo de resposta das requisições. Para a aplicação do DataOps, é preciso repensar a gestão de dados no quesitos de flexibilidade, automação e comunicação.

Flexibilidade

Buscando implementar um metodologia ágil, certas práticas são necessárias para facilitar o desenvolvimento e emprego de alterações conforme for preciso. A prática de criação de branches — cópias do código a ser modificado em um ambiente isolado — para o desenvolvimento novas features é comum, e traz mais segurança e praticidade para essa atividade. Desse modo, reduz-se o risco de instabilidade no ambiente de produção, e permite-se ampla testagem antes da implementação.

Também é recomendável manter uma ferramenta de controle de versões, local de onde os branches poderão ser puxados, além de ser importantíssima para ajudar a certificar que todas as diferentes ferramentas e códigos, usados de uma ponta a outra do pipeline, estão sempre atualizados. Em um ambiente de aplicação recorrente de novas versões como o DataOps, essa ferramenta tem extrema importância.

Por fim, trabalhar com conteinerização de código ao invés de um pipeline monolítico é outro ponto interessante, visto que componentes menores e independentes podem ser reutilizados em outras aplicações ou facilmente substituídos, reduzindo o tempo de desenvolvimento e liberando o time para tarefas mais relevantes.

Automação

Mais de 50% do tempo empregado por times de dados atualmente é em correção de erros ou manutenção de iniciativas de produção, e menos de 1/4 é empregado em inovação em dados ou geração de aprendizados analíticos melhorados. A automação de tarefas rotineiras permite deslocar esforços de pessoal para tarefas mais importantes, inovações ou melhoria de processo, enquanto ainda mantem-se um alto nível de governança sobre os dados.

Um dos principais processos de pipeline a ser automatizado é a testagem. Sempre que uma nova solução ou etapa é implementada na produção, um teste deve ser executado para garantir que tudo está funciona como deveria. Isso garante que os dados são confiáveis e de alta qualidade.

Três tipos de testes que devem ser realizados consistentemente são:

Testes de Input — verificar as entradas ainda no estágio de processamento
Testes de Bussiness Logic — checar se os dados batem com as suposições de negócio
Testes de Output — conferir se os resultados são consistentes

Ter uma rotina de testagem automática estabelecida evita extensos (e entediantes) testes manuais e solidifica a confiança no fornecimento de dados precisos e funcionais.

Comunicação

Outro ponto crucial para a aplicação do DataOps é o alinhamento entre os times de modelagem e gestão de dados com os times que consumirão essas informações e insights, como analistas ou cientistas de dados. A comunicação constante ajuda a todos os envolvidos entenderem o valor e a importância daquele trabalho, além de esclarecer prioridades e facilitar uma colaboração mais ágil. Além disso, compreender melhor as necessidades dos usuários pode ajudar os times de modelagem a criarem soluções diferenciadas e melhor adaptadas à realidade da empresa.

A implementação completa do modelo de DataOps passa por uma mudança cultural nos setores envolvidos, trazendo mais importância para a gestão de dados, maior entendimento do valor real das iniciativas e presença do alinhamento de trabalho em todos os níveis (operacional, gerencial e executivo).

O DataOps reforça seu time de Data e Analytics para entregarem soluções mais rapidamente, de maneira mais inovadora e com menos esforço. A soma dessas características pretende mudar o jeito que sua empresa enxerga os dados e, principalmente, aumentar o valor extraído deles.

Além disso, é uma das principais tendências da área de dados para 2021 e deve ser citado — e aplicado — cada vez mais daqui para frente. Para mais aprofundamento, é possível acessar O Manifesto DataOps, que traz os princípios dessa metodologia e mais informações relevantes.