Valores missing — Parte 1

O que são e por que existem?

Gabriel Rodrigues
Datapsico
4 min readAug 21, 2020

--

(A “Parte 2 — Como lidar com missings?” está aqui).

Você recebe o banco de dados e faz as limpezas iniciais do nome das colunas, de variáveis a ser utilizadas e decide por iniciar a análise. Olhando de perto, percebe que algumas células possuem um valor vazio; geralmente, representado por NA.

Esse valor vazio representado por NA é um ponto missing. A análise dos dados coletados pode ser influenciada por valores missing, então é importante compreender de onde eles vêm para saber o melhor tratamento para se ter com eles.

Você sabia?
NA significa “No answer” (“Sem resposta”) ou “Not applicable” (“Não se aplica”).

Entendendo por que e quais são os tipos de missing no nosso banco de dados, conseguimos tomar decisões assertivas no momento de preencher (ou não) esses valores.

Por que existem missings?

John Travolta fica perdido quando se trata de entender por que existem missings.

Missings podem existir por alguns motivos. Entre os principais está o erro técnico ou erro humano. O Felipe Penha fez esse vídeo (em inglês) que fala sobre 10 formas de se surgir valores missing. Por vezes, aquela observação simplesmente não possui um valor para variável que queremos.

Classifica-se dados vazios/missing geralmente em três categorias:

Missings completamente aleatórios

Em inglês, chamados de Missing completely at random (MCAR).

Esses dados ocorreram por obra do acaso. Eles aconteceram sem motivo algum — apenas não foi possível coletar esse valor ou ele se perdeu em algum momento.

Por exemplo, questionários autoaplicáveis respondidos à mão, por vezes, podem possuir um valor não respondido, uma resposta rabiscada que não foi compreendida, etc. Outro exemplo pode ser um erro de digitação dos dados, a partir do qual escolhe-se por considerar esse valor como missing.

O que é importante lembrar: os valores missing completamente aleatórios não possuem nenhuma relação com as outras colunas/variáveis do estudo.

Missings aleatórios

Em inglês, chamados de Missing at random (MAR).

São valores que não existem porque, de alguma forma, estão relacionados a alguma variável do estudo. Refraseando: uma outra variável aumenta a probabilidade desse valor ser missing.

Por exemplo, digamos que por durante um ano você recebe dados de ozônio e temperatura do ar de um aparelho que mede a quantidade de ozônio no ar. Depois desse ano, você percebe que em alguns momentos esse aparelho não registrou a quantidade de ozônio no ar. Analisando melhor os dados, percebe que esses missings aconteceram somente em altas temperaturas. A hipótese provável é que nesses momentos o aparelho teria parado de funcionar, voltando ao funcionamento em temperaturas mais amenas (esse exemplo tirei do DataCamp, que me introduziu a esses conceitos).

No campo da psicologia, podemos ter missings maiores em uma variável que mede a quantidade de vezes que uma pessoa reza considerando em participantes que não possuem filiação religiosa. A “filiação religiosa” influencia na variável “rezar”. Esses são missings aleatórios.

Note que eu dei ênfase na palavra influencia. Isso porque ainda existem casos de pessoas que rezam mas que não possuem filiação religiosa.

Se eles ocorreram por um motivo, por que são chamados de aleatórios? São aleatórios porque não foram previstos, não ocorrem 100% das vezes e nem aconteceram por desenho do estudo.

O que é importante lembrar: os valores missing aleatórios possuem associação com as outras colunas/variáveis do estudo.

Missings que não são aleatórios

Em inglês, chamados de Missing not at random (MNAR).

Esses são missings nada aleatórios! A variável em si é a causa de não existir um escore dela mesma. Isso pode ser feito de forma proposital ou não.

Voltando ao exemplo do aparelho de ozônio, digamos que ele pare de medir ozônio quando a quantidade do próprio ozônio é alta demais. Nesse momento, o ozônio em si é a causa de não existir um escore de ozônio.

Da mesma forma, certos valores podem não existir porque não são disponibilizados. Por exemplo, uma pessoa pode decidir não informar algo sobre si em uma pesquisa por entender que deseja omitir uma informação pessoal demais.

O que é importante: os valores reais da variável são o que geram os valores missing observados.

Por que isso é importante?

Podemos tirar algumas conclusões disso que vimos aqui que são relevantes para a nossa prática. Como já dito, entender o tipo de missing é essencial para fazermos uma boa imputação desses valores no nosso banco de dados.

Sobre isso nós vamos falar na segunda parte desse post. Segue a nossa Newsletter para não perder novas publicações.

Contato

Espero que tenha gostado! Qualquer dúvida, observação ou comentário são muito bem-vindos! Fique à vontade para se manifestar e vamos aprender juntos 😄

Para falar comigo, é só entrar em qualquer um desses links.

--

--

Gabriel Rodrigues
Datapsico

Sou um psicólogo que trabalha com Análise e Ciência de Dados desde a graduação — busco criar e compartilhar conteúdo sobre esses assuntos. linktr.ee/gabrielrr