Glossário de dados: Metadados
Os complementos essenciais de dados com qualidade
Quando estruturamos práticas de governança de dados, pensamos sobre coisas como: onde os dados ficarão disponíveis? Como serão categorizados? Depois de quanto tempo serão descartados?
Entretanto, para aplicar esse tipo de regulação, precisamos entender com quais dados estamos tratando. Algumas perguntas-chave nos ajudam nesse processo:
- A que os dados se referem?
- Quando foram gerados?
- São tratados ou não?
- De onde vieram?
- Entre outras.
As respostas dessas perguntas permitem classificar os dados, e essas classificações são presentes na forma de metadados. Eles servem para compreendermos mais sobre os dados que temos disponíveis e, consequentemente, como melhor manuseá-los.
O que são metadados?
Metadados são, basicamente, dados sobre dados. Eles fornecem informações complementares que ajudam a entender a origem, a situação e o uso de determinados conjuntos de dados. Exemplos:
- Fonte/origem;
- Tipo de arquivo;
- Nº da versão;
- Tamanho do arquivo;
- Data de criação;
- Tags personalizadas; etc.
Assim, eles facilitam o processo de encontrar e de trabalhar com determinados data sets, principalmente no meio do mar de dados que é o Big Data. Sem os metadados, perderíamos controle sobre quais informações temos armazenadas e quão úteis elas são.
Metadados podem ser criados automaticamente, por ferramenta especializada/software gerador do dado, ou manualmente, durante classificações posteriores.
Qual é a finalidade dos metadados?
Os metadados têm a função de facilitar o entendimento de características e, assim, evidenciar a utilidade das informações dos dados.
Eles fornecem contexto e proveniência, elementos essenciais para a aplicação dos dados na tomada de decisões.
Dados só são úteis quando podem ser compreendidos e reaplicados. Um conjunto de dados do qual não fosse possível identificar o formato seria inútil. Um outro que não tenha identificação de validade, ou data limite para descarte, pode gerar um uso inapropriado e inconformidades.
Um bom uso dos metadados está atrelado diretamente a manutenção de Data Quality, especialmente no que diz respeito aos princípios de Exatidão (ter valores corretos e discerníveis) e Compatibilidade (ter dados compatíveis entre si e com ferramentas).
É seguro dizer que sem metadados, qualquer conjunto de dados fica relativamente inútil. Não seria possível saber a que período se referem, nem o que eles representam. Teríamos dificuldade até mesmo para localizar os dados desejados nas nossas bases.
Os metadados são tão úteis quanto os próprios dados.
Entendê-los e trabalhá-los adequadamente é central dentro de estratégias de Data & Analytics eficientes. Ferramentas como o BigQuery e o Data Catalog podem ajudar na descoberta e gerenciamento de metadados, permitindo utilizá-los para filtragem, classificação e manipulação dos dados.