Glossário de dados: Metadados

Os complementos essenciais de dados com qualidade

DataLakers Tecnologia
Blog DataLakers
2 min readDec 2, 2021

--

Photo by Kindel Media, via Pexels

Quando estruturamos práticas de governança de dados, pensamos sobre coisas como: onde os dados ficarão disponíveis? Como serão categorizados? Depois de quanto tempo serão descartados?

Entretanto, para aplicar esse tipo de regulação, precisamos entender com quais dados estamos tratando. Algumas perguntas-chave nos ajudam nesse processo:

  • A que os dados se referem?
  • Quando foram gerados?
  • São tratados ou não?
  • De onde vieram?
  • Entre outras.

As respostas dessas perguntas permitem classificar os dados, e essas classificações são presentes na forma de metadados. Eles servem para compreendermos mais sobre os dados que temos disponíveis e, consequentemente, como melhor manuseá-los.

O que são metadados?

Metadados são, basicamente, dados sobre dados. Eles fornecem informações complementares que ajudam a entender a origem, a situação e o uso de determinados conjuntos de dados. Exemplos:

  • Fonte/origem;
  • Tipo de arquivo;
  • Nº da versão;
  • Tamanho do arquivo;
  • Data de criação;
  • Tags personalizadas; etc.

Assim, eles facilitam o processo de encontrar e de trabalhar com determinados data sets, principalmente no meio do mar de dados que é o Big Data. Sem os metadados, perderíamos controle sobre quais informações temos armazenadas e quão úteis elas são.

Metadados podem ser criados automaticamente, por ferramenta especializada/software gerador do dado, ou manualmente, durante classificações posteriores.

Qual é a finalidade dos metadados?

Os metadados têm a função de facilitar o entendimento de características e, assim, evidenciar a utilidade das informações dos dados.

Eles fornecem contexto e proveniência, elementos essenciais para a aplicação dos dados na tomada de decisões.

Dados só são úteis quando podem ser compreendidos e reaplicados. Um conjunto de dados do qual não fosse possível identificar o formato seria inútil. Um outro que não tenha identificação de validade, ou data limite para descarte, pode gerar um uso inapropriado e inconformidades.

Um bom uso dos metadados está atrelado diretamente a manutenção de Data Quality, especialmente no que diz respeito aos princípios de Exatidão (ter valores corretos e discerníveis) e Compatibilidade (ter dados compatíveis entre si e com ferramentas).

É seguro dizer que sem metadados, qualquer conjunto de dados fica relativamente inútil. Não seria possível saber a que período se referem, nem o que eles representam. Teríamos dificuldade até mesmo para localizar os dados desejados nas nossas bases.

Os metadados são tão úteis quanto os próprios dados.

Entendê-los e trabalhá-los adequadamente é central dentro de estratégias de Data & Analytics eficientes. Ferramentas como o BigQuery e o Data Catalog podem ajudar na descoberta e gerenciamento de metadados, permitindo utilizá-los para filtragem, classificação e manipulação dos dados.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.