Série Gestão de Dados — 4.Data Quality: uma visão de ponta a ponta

DP6 Team
Blog DP6
Published in
6 min readApr 13, 2023

--

Introdução

A importância da implementação de processos de monitoramento da qualidade dos dados já foi amplamente discutida neste blog, através de artigos como Engenharia de Dados para Martech — Data Quality — Série Engenharia de Dados. Parte II, Data Lineage: Garantindo a qualidade dos dados, Data quality e a sua importância para as estratégias de marketing e 5 Motivos para implementar um Data Quality. No entanto, este artigo pretende expandir ainda mais a discussão, fornecendo uma visão completa sobre a implementação de soluções de Data Quality e destacando que essas soluções não são apenas melhorias técnicas em processos de engenharia, mas sim benefícios para todas as áreas que geram, trabalham ou consomem dados de alguma forma.

Escopo Técnico

Dentro do escopo técnico, delimitado aqui como o escopo de atuação do time de pessoas engenheiras de dados, a qualidade dos dados coletados é essencial para evitar erros e trabalhos de manutenção futuros. Em geral, a equipe de engenharia de dados é responsável pela criação de pipelines e processos de extração, processamento e ingestão de dados. É importante que a equipe se atente à qualidade de dados durante todas as etapas para garantir a entrega de dados de alta qualidade para seus consumidores.

Por meio de um processo de qualidade de dados, a equipe de engenharia pode monitorar, identificar e agir proativamente em problemas relacionados aos dados. Por exemplo, se o time de engenharia é responsável por extrair dados de uma API e armazená-los em uma base de dados para consumo da empresa, um processo rigoroso de qualidade de dados e monitoramento pode avaliar erros no processo e corrigi-los no menor tempo possível. Sem o processo de monitoramento e validação de qualidade de dados, o time de engenharia continuaria armazenando dados incorretos ou inconsistentes por tempo indeterminado, até que um dos consumidores dos dados alertasse o erro.

As consequências de gerar dados incorretos ou inconsistentes são a percepção tardia do erro. Se o erro for percebido tardiamente pelo time de analistas, eles notificarão o time de engenharia sobre o ocorrido, o que pode ocasionar em perda de confiabilidade dos dados consumidos e maior trabalho de correção.

Exemplificando, imagine que um analista consumirá dados dos últimos 5 meses e percebe que os dados estão incorretos. O time de engenharia precisaria corrigir o processamento e reprocessar os últimos 5 meses de dados, gerando um processo exaustivo de manutenção e acompanhamento da correção, além do consumo de recursos computacionais e de horas trabalhadas elevado para correção do problema. Recursos estes que poderiam ser utilizados para o desenvolvimento de novas funcionalidades ou tarefas que gerem mais valor ao negócio.

Escopo Analítico

O escopo analítico é definido aqui como a área responsável por elaborar dashboards, relatórios e análises que contribuem para o desenvolvimento e tomada de decisões do negócio. Caracterizada principalmente pelos usuários dos dados, o escopo analítico se beneficia da iniciativa de qualidade de dados por meio da confiabilidade dos dados utilizados.

No escopo analítico, os dados são a matéria-prima para a geração de valor ao negócio, ou seja, o input das análises e relatórios criados. É importante que o analista tenha confiança na veracidade dos dados e na representatividade deles. Um erro comum é a falta de completude ou ausência de dados.

Imagine que um analista precisa dos dados de vendas dos últimos 5 meses, entretanto, só encontra dados dos últimos 3 meses, pois houve uma falha no processo de coleta dos outros 2 meses. Ainda que o erro seja perceptível, ele pode causar um sentimento de frustração para o time de análise, que precisará recorrer ao time de engenharia para efetuar as correções no processamento dos dados, e aguardar até que elas sejam feitas, validadas e implementadas, ocasionando em um impedimento no andamento da análise necessária ao negócio, e consequentemente atrasando as entregas relacionadas. Caso a incidência de erros seja alta, é comum que o time de analistas perca a confiabilidade nos dados providos, duvidando dos processos utilizados e do quão representativo é o dado.

Escopo de Negócio

Dentro do escopo de negócio, aqui tratada como a área responsável por utilizar os dados, se a equipe de engenharia não implementar processos de qualidade de dados, a análise pode ser enviesada ou não refletir consistentemente a realidade do negócio.

Por exemplo, imagine que um time de analistas gerou uma análise para entender o comportamento de compra dos consumidores nos últimos 5 meses e determinar quais produtos devem ser favorecidos em anúncios e quais devem ser retirados do estoque. Durante o processamento dos dados, houve uma falha que não processou os dados dos consumidores que compraram no período noturno. Como o volume de dados ainda era significativo, a equipe de análise não percebeu a perda de dados e prosseguiu com a análise.

Entretanto, a análise acabou sendo enviesada, uma vez que desconsiderou todo o público que comprava durante a noite, afetando as decisões de negócio. Isso acontece porque os tomadores de decisão da empresa irão basear suas decisões somente no comportamento de compra diurno e ignorarão o comportamento noturno, que não estava presente nos dados. Portanto, é crucial que a equipe de engenharia implemente processos de qualidade de dados para evitar esses problemas de viés e garantir que as decisões de negócio sejam baseadas em informações precisas e confiáveis.

Conclusão

Estabelecer processos e rotinas de validação de qualidade dos dados é essencial para garantir a confiabilidade dos dados utilizados nas análises de negócio. Além disso, é importante implementar monitoramento e alertas de erros em todas as etapas de processamento, a fim de identificar problemas o mais rápido possível e facilitar a manutenção e reprocessamento dos dados.

É crucial lembrar que a confiabilidade no uso dos dados não depende apenas da precisão dos dados, mas também da confiança nos processos de engenharia que alertam os usuários sobre possíveis falhas. A implementação de um processo de Data Quality e identificação de erros ajuda a evitar análises baseadas em dados incorretos ou incompletos, o que pode levar a vieses e erros analíticos que afetam a tomada de decisão do negócio.

Por fim, a adoção de boas práticas de Data Quality também aumenta a confiabilidade dos dados como matéria-prima para o time analítico, reduzindo o desconforto dos consumidores dos dados e melhorando a confiabilidade da empresa perante seus stakeholders.

Perfil do autor: Lucas Tonetto Firmo | Engenheiro da Computação formado pela Universidade São Judas Tadeu e MBA em IA e Big Data pela USP, aficionado por Tecnologia e pela sua capacidade de transformar o modo de vida da sociedade. Atuou por dois anos com o desenvolvimento de sites e aplicações web, atualmente trabalha como Engenheiro de Dados na DP6.

Perfil do autor: Angélica Fatarelli | Bacharel em Sistemas de Informação e MBA em Data Science, atuou por muitos anos com desenvolvimento de software, e hoje se aventura no mundo da Engenharia de Dados, trazendo soluções tecnológicas para o mercado de Marketing Digital pela DP6.

➡Produzimos um e-book completo sobre Gestão de Dados para Marketing, baixe e saiba mais!

--

--