Estatística: Análise de Regressão Linear e Análise de Regressão Logística com R

Amanda Munari Guimarães
omixdata
Published in
4 min readSep 15, 2019

Nessa semana vamos dar continuidade à nossa série de postagens sobre estatística utilizando pacotes do R. Nesse post iremos abordar a Análise de Regressão Linear e a Análise de Regressão Logística. Além do nosso conteúdo teórico sobre as regressões, vamos elucidar esse conhecimento através de exemplos de códigos, funções disponíveis em pacotes do R e demonstrar como construir gráficos a partir das análises.

Análise de Regressão Linear

A análise de Regressão Linear é um método estatístico utilizado para investigar a relação existente entre variáveis, sendo essas variáveis chamadas de variáveis dependentes e variáveis independentes. Essa análise é realizada através da construção de uma equação, a qual vamos chamar daqui pra frente de modelo. Esse modelo, vai associar a variável dependente à variável independente e recebe a denominação de Modelo de Regressão Linear Simples (MRLS). No MRLS vamos estudar a relação linear entre duas variáveis quantitativas, ou seja, iremos assumir uma relação causal entre duas variáveis contínuas.

Essa análise pode ser usada, por exemplo, para descrever a relação entre variáveis para entender um processo ou fenômeno, para prever o valor de uma variável a partir do conhecimento dos valores das outras variáveis, para substituir a medição de uma variável pela observação dos valores de outras variáveis, e para controlar os valores de uma variável em uma faixa de interesse.

O modelo tem como fórmula:y ~ a + bx + erro

Sendo y a variável resposta, a o intercepto, b o coeficiente angular e x a variável explanatória. Ou seja, em uma regressão linear, y varia em função de bx mais um valor constante a. O coeficiente angular b representa a taxa com que y aumento em relação a x. Ao fazer isso, podemos traçar a reta que melhor se ajusta aos nossos dados, ou seja, aquela que minimiza a soma de quadrados do Erro.

No R, criamos o modelo a partir da função lm().

Exemplo

No exemplo que usaremos, a variável resposta y e a variável independente x. Para criar o data frame vamos usar a função data.frame().

No nosso modelo criado temos os seguintes argumentos:

lm(y ~ x, data = dados)

No nosso caso, o argumento y é nossa variável dependente, o ~ indica que tudo após isto é variável independente, x nossa variável independente, e o argumento data que vai determinar qual o banco de dados estamos utilizando, que no nosso caso é o banco chamado dados.

Para gerar a tabela de variância usamos a seguinte função:

Para gerar o gráfico

O R apresenta um pacote específico para gerar gráficos, o qual é amplamente utilizado e apresenta diversos recursos, sendo esse parte da biblioteca ggplot2. Abaixo podemos ver como utilizar a função ggplot para gerar o gráfico. Os argumentos desse caso são:

data no qual especificamos nosso banco de dados, que é o banco “dados”.

aes() é a função onde especificamos os valores de x e y no gráfico, ou seja descreve como as variáveis são mapeadas.

geom_point() é a função que gera o gráfico de dispersão.

geom_smooth() é a função que recebeu como argumento method = "lm", ou seja indica que é um gráfico específico para regressão linear feita por meio de modelo lm.

O diagrama acima evidencia uma forte correlação linear crescente entre as variáveis em estudo.

Análise de Regressão Logística

Enquanto na Regressão Linear temos uma variável resposta contínua, na Regressão Logística nossa variável resposta é binária, 0 ou 1, sim ou não. Essa análise é, normalmente, utilizada quando se quer medir a relação de uma variável dependente binária com uma ou mais variáveis independentes, sendo que as independentes tanto podem ser categóricas ou não.

A Regressão Logística é uma análise que nos permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias. As vantagens desse tipo de regressão incluem: (a) facilidade para lidar com variáveis independentes categóricas; (b) fornece resultados em termos de probabilidade; (c) facilidade de classificação de indivíduos em categorias; (d) requer pequeno número de suposições; e (e) possui alto grau de confiabilidade.

No R, o modelo para regressão logística é feito utilizando a função glm().

Exemplo

Para demonstrar como construir o modelo para regressão logística vamos utilizar o seguinte exemplo. Um pesquisador está fazendo um análise para saber a sobrevivência de pacientes que passaram pelo setor de UTI de um determinado hospital. Sendo que a variável sobrevivente guarda os valores de 0 e 1, onde 0 significa não sobreviventes, e 1 sobreviventes. A outra variável a ser utilizada é a variável sexo, que nos dirá se o paciente é homem ou mulher.

O primeiro passo é criar e entender nosso data frame. No R podemos criar um data frame usando a função data.frame().

Para o modelo de Regressão Logística vamos utilizar a seguinte estrutura:

No nosso modelo criado temos os seguintes argumentos:

glm(sobrevivente ~ sexo, family = "binomial", data = dados)

No nosso caso, o argumento sobrevivente é nossa variável binomial dependente, o ~ indica que tudo após isto é variável independente, sexo nossa variável independente, family com o valor de “binomial”, o qual vai determinar o modelo como sendo para regressão logística, e o argumento data que vai determinar qual o banco de dados estamos utilizando, que no nosso caso é o banco chamado dados.

O resultado observado por meio do sumary() foi:

Esse resultado gerado é um pouco difícil de ser interpretado, mas podemos utilizar a funçõa exp(), a qual permite calcular as razões de chance, que serve para exponenciar um número.

Essa função nos permite ver de forma direta e clara o resultado. No nosso exemplo, a cada mulher que sobreviveu, aproximadamente 0.96 homens sobreviveram.

--

--