Como garantir a qualidade dos dados?

Os princípios de Data Quality que facilitam a manutenção de dados úteis, limpos e disponíveis

DataLakers Tecnologia
Blog DataLakers
4 min readMar 15, 2021

--

Cottonbro, via Pexels

Mesmo com o processo de Analytics passando por inúmeras etapas, um dos pontos mais críticos está no controle dos dados. Os dados são os blocos de construção para todas as análises posteriores e, portanto, qualquer imprecisão contida neles será refletida nos insights e conclusões no final da cadeia.

Esse tipo de erro tende a gerar diversas desvantagens competitivas para uma organização. Análises equivocadas levam a decisões de negócio equivocadas, perda de oportunidades ou clientes, além do retrabalho necessário para efetuar correções, com desprendimento de recursos e tempo.

Assim, é de vital importância certificar-se de que os dados que estamos manipulando refletem o mundo real de maneira fidedigna, agregam valor real às análises e não tendem a gerar mal entendidos.

Para garantir essa confiabilidade, é necessária atenção a alguns princípios durante o processo de gestão; boas práticas que dizem respeito ao Data Quality da empresa.

Abaixo listamos 5 critérios que devem ser observados para a manutenção de bancos de dados de alta credibilidade.

Princípios de Data Quality

Exatidão

Exatidão se refere ao valor do dado armazenado estar correto. Para isso, o valor armazenado precisa ser o valor certo e ser apresentado de uma maneira consistente e sem ambiguidade.

Por exemplo, vamos considerar clientes que residem em São Paulo. Caso dois cadastros apresentem os campos de residência como S. Paulo e São Paulo, não teríamos dificuldade em identificar que se referem ao mesmo local. Entretanto, esses dados são inconsistentes, pois não podem ser facilmente agregados ou comparados. Essas inconsistências criam brechas para o uso impreciso dos dados durante análises.

Quanto a ambiguidade, datas são campos que podem carregar esse traço facilmente. O dia 05 de fevereiro de 2021 pode ser representado como 05/02/2021, em representação europeia, ou 02/05/2021, na representação americana. Não é possível saber qual delas está sendo usada pelo valor, portanto é necessária disciplina na criação dos campos; um valor não é exato se o usuário não consegue lê-lo.

Completude

Saber se temos todos os dados necessários para a análise é importante, e isso determina a completude dos dados. Mesmo que tenhamos dados de grande exatidão, uma métrica faltando pode impossibilitar uma análise relacional desejada e acabar por interromper toda um fluxo de análises.

A reflexão sobre a completude dos dados deve ser constante, sempre estudando se os campos disponíveis são suficientes considerando demandas mais recentes dos times de Analytics.

Confiabilidade

Quando uma organização já tem seu modelo de negócios convertido (ou inicialmente estabelecido) em um modelo data-driven, a dependência em dados se torna gigante. Assim, para haver segurança na tomada de decisão, é preciso haver confiança nos dados.

Checar a confiabilidade de um banco de dados passa por entender se ele é consistente e não contradiz outras fontes confiáveis. Se dois sistemas acusam números de itens diferentes na mesma compra, estão sendo contraditórios.

Caso a mesma informação seja contraditória em dois registros diferentes, ela não é confiável e não pode ser usada de maneira analítica.

Relevância

Manter a alta qualidade dos dados significa, também, priorizar dados de maior importância. Essa hierarquia deve ser definida de acordo com os dados que trazem mais valor para a empresa.

Fazer isso também permite reavaliar os dados realmente necessários e, assim, eliminar campos que não geram valor agregado e “só dão trabalho”.

Compatibilidade

Esse tópico se torna mais e mais importante conforme o volume de dados armazenados cresce. Para serem úteis em BI ou Data Science, é necessário garantir a compatibilidade dos dados entre si e, principalmente, com as ferramentas usadas no pipeline.

Este também é um dos pré-requisitos da manutenção de dados acessíveis. Do contrário, temos uma pilha de informações que dificilmente terá utilidade.

Ao passo que erros são inevitáveis em qualquer processo, também é um desafio de Data Quality definir quanto ou quais erros são aceitáveis, e em qual grau. Cadastros preenchidos manualmente, por exemplo, tendem a apresentar erros constantes, e como lidar com essas inconsistências se torna uma questão assim que elas são identificadas.

Existem ferramentas no mercado que podem ajudar a fazer o acompanhamento de Data Quality na sua organização, mas é importante lembrar que esse conceito deve ir além da adesão a uma ferramenta: é uma provocação que deve ser levada em conta sempre que estivermos fazendo manuseio dos dados.

Em suma, a atenção constante à qualidade dos dados e a adesão aos cuidados estabelecidos pelo Data Quality tendem a diminuir o tempo e custos desprendidos em ações corretivas, colaborando com uma gestão de dados menos reativa e mais proativa para as empresas.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.