Um guia de como criar um dicionário de dados para a sua pesquisa

Dalton Costa
Datapsico
Published in
5 min readOct 29, 2021

No meu último texto aprendemos como organizar um banco de dados seguindo o método do Tidy Data. Nesse post vamos seguir aprendendo como organizar melhor nossos dados e obtermos análises melhores.

Já aconteceu com você de receber um banco de dados de um colega, ou até mesmo com os seus bancos de dados, e você se perguntou: o que significa essa variável? Essa é uma variável categórica ou numérica? Essa situação é muito comum e nos faz perder um certo tempo tentando entender o que aquele dado significa.

Para evitar esse tipo de situação e para facilitar a vida de todas as pessoas envolvidas no projeto, convido a você a partir de hoje a sempre criar um dicionário de dados para os seus bancos.

O que é um dicionário de dados?

Um dicionário de dado armazena e comunica informações sobre um banco de dados. É considerado uma lista de dados com os principais termos e métricas do banco de dados que está vinculado. Esse material também pode ser entendido como um glossário dos seus dados. Embora pareça simples, ele é crucial para alinhar o funcionamento da equipe que irá trabalhar com os dados e manter todas as informações padronizadas. O conteúdo do dicionário de dados pode variar, mas normalmente inclui alguns itens como:

● Nomes e definições das variáveis;

● Propriedades detalhadas dos dados (tipo de dados, tamanho, se há valores nulos);

● Sequência das perguntas ou da coleta das variáveis;

● Dados de referência (para fazer classificações e domínios descritivos);

● Codificação para dados ausentes.

Figura 1. Exemplo de uma dicionário de dados. Criado pelo autor.

Informações relevantes em um dicionário de dados

Variável

Um dos primeiros passos na confecção de uma pesquisa ou levantamento de dados é definir o que será avaliado, ou seja, quais são as variáveis que irão ajudar a responder a minha pergunta principal. Ao determinar quais são as variáveis que irão compor o seu banco de dados, você já pode iniciar a confecção do seu dicionário de variáveis.

Nome da Variável

O nome da variável representa o rótulo* (ou label) que você quer atribuir a sua variável e que representará a variável no banco de dados. Ao contrário do item anterior, nesse item você deve colocar um nome simples, sem acentuação, caracteres especiais e sem espaços entre palavras.

Por exemplo, imagine que você irá utilizar uma escala psicométrica e cada item dessa escala (E) será uma variável. No nome da variável você pode colocar um código simples que presente a variável, como: E1 e E2.

Tipo de Variável

Saber o tipo de variável que contém no banco é fundamental para analisar os dados. Muitas vezes é necessário recalcular uma variável para deixá-la no formato ideal, esse cenário poderia ser evitado com um bom planejamento da coleta de dados e a utilização de dicionários de dados.

Uma variável pode ser numérica ou categórica. Em especial nas variáveis categóricas, é importante especificar as categorias e se essas categorias possuem uma ordem de importância ou não. Então, sinalize sempre no tipo de variável se ela é numérica ou categórica, especifique ainda se as categorias possuem uma ordem de importância ou hierárquica (como, escolaridade ou grau de uma doença). Também há variáveis do tipo tempo (ou time), que representa alguma informação de tempo, como: segundos, minutos, horas, datas. Nesses casos, seria importante discriminar qual das medidas de tempo estão representadas na variável.

Descrição

O espaço para descrição é destinado para incluir maiores detalhes sobre determinada variável. Uma descrição detalhada é encorajada para que todos possam entender o que realmente aquela variável representa, qual a razão dela está ali e como deve ser tratada durante as análises.

Você pode acrescentar também detalhes de como e quando essa variável foi coletada ou em que momentos ela não será coletada. Com essas informações em mãos, você pode, por exemplo, ter maiores detalhes sobre possíveis missings no seu banco de dados.

Ao mesmo tempo, evite descrições desnecessárias e circulares, como por exemplo: “a idade do paciente representa quanto tempo o paciente está vivo”. Diga informações diretas e relevantes, como: “a idade fornecida pelo paciente em anos”. Dessa forma, você sabe que a ideia foi fornecida diretamente os dados da variável em questão foi fornecido pelo paciente e está em anos.

Valores Permitidos

No campo de valores permitidos você deve fornecer todos os valores que são possíveis de serem coletados. Para as variáveis numéricas indique o valor mínimo e máximo que podem ser informados no seu banco. Já para as variáveis categóricas informe o número da categoria, bem como o rótulo associada a ela.

Por exemplo, se a variável gênero tiver codificações de 1 e 2, indique no dicionário o que significa esses valores respectivamente (1 = masculino e 2 = feminino).

Possui Valores Nulos

Durante o processo de análise de dados os valores faltantes (missings) sempre são um problema. Há momentos em que não é possível coletar determinada variável e os dados daquele caso ficarão em branco ou vazio. Isso é perfeitamente possível no mundo real, mas é um problema durante o processo de análise de dados. Portanto, ao fazer o exercício da construção de um dicionário de variáveis você pode evitar dados nulos ou missings. Mas se não há saída, sinalize no seu dicionário de dados que aquela variável pode ter valores nulos ou faltantes.

Anotações

Ao final do seu dicionário de dados você pode criar um campo de anotações. Coloque nesse campo demais informações que não foram até então declaradas. Como, por exemplo, a referência que você utilizou para criar as categorias de uma variável ou o estudo que tem uma variável parecida e que fomenta a discussão dos seus resultados.

Considerações Finais

Vimos nesse artigo a importância de se criar dicionários de dados desde o início do planejamento da sua pesquisa. Ao criar um dicionário de dados você facilitará a comunicação entre membros da equipe e evitará erros comuns da coleta de dados. Você estará ainda melhorando a qualidade dos seus dados, bem como obtendo resultados mais fidedignos na sua análise de dados.

Você pode criar um dicionário de dados utilizando o Excel, Spreadsheet ou o Word. O dicionário de dados deve ser um documento simples e democrático, que facilitará o seu trabalho e dos seus colegas.

E o que você achou da ideia de criar dicionário de dados? Compartilha esse artigo com os seus contatos e espalhe a ideia de construir diconário de dados!

Espero que tenha gostado e qualquer dúvida, comentário ou observação são muito bem-vindos! Fique à vontade para se manifestar e vamos aprender juntos! Se preferir, você pode me contatar pelo dalton.bc96@gmail.com

Obrigado pela leitura!

Referências

--

--