Variáveis Dummy: o que é? Quando usar? E como usar?

Entenda não só o que são essas variáveis e a sua aplicação, mas também quando é o momento certo para usá-las

Thomas Ryu
Data Hackers
3 min readNov 2, 2019

--

Photo by Sara Kurfeß on Unsplash

Afinal, o que é uma variável dummy?

Na modelagem é comum encontrarmos diversos tipos de modelos que têm como pré-requisito que todas as variáveis sejam numéricas, mas o que fazer com as variáveis categóricas nessas situações? Para este tipo de abordagem podemos utilizar o conceito da variável dummy.

O que é?

Variáveis dummy são variáveis binárias (0 ou 1) criadas para representar uma variável com duas ou mais categorias.

Por exemplo, se quiséssemos incluir a variável sexo em um modelo de regressão linear teríamos que transformar artificialmente a variável sexo em uma variável dummy, deste modelo teríamos:

  • dummy_sexo = 1 em caso de sexo feminino
  • dummy_sexo = 0 em caso de sexo masculino

Em um caso de variável com 3 ou mais categorias, seria necessário criar sempre n-1 dummies, por exemplo no caso de incluir a variável estado (considerando que a base tem apenas os estados de São Paulo, Rio de Janeiro e Minas Gerais) no modelo teríamos:

  • dummy_SP: 1 quando São Paulo e 0 nos demais
  • dummy_RJ: 1 quando Rio de Janeiro e 0 nos demais

Perceba que o número de variáveis dummies a serem criadas sempre sera n-1 categorias, e isso acontece pois a ultima variável será a exclusão das demais. Neste exemplo o fator MG acontece quando dummy_SP e dummy_RJ for 0.

Na modelagem, a utilização da variável dummy irá permitir a captação da diferença do valor esperado entre categorias, ou seja, o coeficiente (Beta) do modelo será o valor médio que determinada categoria representa. No exemplo dos estados, a não criação da variável da dummy de Minas Gerais é possível pois o valor médio que esta categoria representa estará associada ao intercepto do modelo, e o peso das variáveis dummy_SP e dummy_RJ será considerada sempre em relação as observações de MG.

Quando usar?

As variáveis dummys devem ser utilizadas sempre que desejarmos incluir variáveis categóricas em modelos que aceitam apenas variáveis numéricas.

Um ponto de atenção que deve-se tomar quando se cria as variáveis dummys é com variáveis que aparentam ser numéricas mas na verdade são categóricas. O caso mais comum para este tipo de ocorrência ocorre quando a base de dados utiliza codificação para categorias.

No caso da utilização da codificação das categorias (Ex.: 1= SP, 2=RJ, 3=MG) na modelagem, o modelo será enviesado arbitrariamente pela relação entre os códigos ( neste exemplo, MG seria equivalente a 3 vezes São Paulo). Vale destacar que a escala likert (Ex: 1=muito ruim, 2=ruim, 3=médio,4=bom,5=muito bom) também é um caso de codificação de categorias, e a ponderação de que “muito bom” é 5x maior que “muito ruim” é uma ponderação feita de forma arbitraria, portanto neste tipo de caso também deve-se utilizar a variável dummy.

Como usar?

A criação das variáveis dummies podem ser facilmente implantadas com a função dummy_cols do R, como no exemplo abaixo:

Var_dummy <- dummy_cols(data, select_columns = c("coluna 1", "coluna 2))

--

--

Thomas Ryu
Data Hackers

Atuário | Pós-graduado em Administração | Data Driven