Regressão Linear

Natan Anael
Dec 10, 2019 · 6 min read

A regressão linear é uma técnica para modelar a relação entre duas variáveis utilizando uma reta.

Podemos utilizar ela para explicar o relacionamento entre duas variáveis para entender o quanto uma mudança em uma variável X implicará em uma mudança na variável Y. Também podemos utilizar a regressão linear para fazer uma previsão do valor da variável Y utilizando o valor da variável X.

A equação linear

A equação de uma reta de regressão pode ser definida pela seguinte formula:

Equação de uma regressão linear
Equação de uma regressão linear
Equação de uma regressão linear

Em que, Y representa a variável que queremos prever, ela também é conhecida como variável dependente.

X representa a variável que vamos usar para prever Y, ela é conhecida como variável independente.

α e β são os nossos estimadores. Depois que a regressão é ajustada são eles que vão definir o valor de Y partir de X.

A variável α é conhecida como coeficiente angular, pois ela define a inclinação da reta, quando o valor dessa variável é positivo os valores de Y aumentam conforme os valores de X aumentam e quando o valor dela é negativo os valores de Y diminuem conforme os valores de X aumentam. Ela também é definida como o valor da tangente do ângulo formado entre a reta de regressão e o eixo X.

A variável β define a altura que a reta está em relação ao eixo X, e ela é chamada de intercepto, pois quando α = 0, o valor de β representa o ponto em Y quando X = 0.

α e β

Resíduos vs. Erro

Antes de entender como uma reta de regressão é ajustada aos dados precisamos entender a diferença entre resíduos e erro.

O resíduo é aquilo que a reta de regressão não conseguiu explicar, é composto pela diferença entre um valor que já foi observado e pelo gerado naquele ponto pela regressão. Quando temos provas de que o resíduo da regressão é aleatório e com média estatisticamente igual à zero, podemos afirmar que não conseguimos retirar mais informação dos dados.

O erro é a diferença entre um valor previsto e um valor real que não foi observado. Esse valor não observado é por exemplo uma previsão feita para um valor futuro a partir da regressão ajustada aos dados.

Erros e resíduos de uma regressão

Como uma regressão é ajustada aos dados

O ajuste de uma regressão é feito utilizando os resíduos dela. Esse ajuste utiliza como métrica os valores de α e β que minimizem a somatória do resíduos elevado ao quadrado. Esse método é conhecido como método dos mínimos quadrados.

Para encontrar os valores de α e β que vão minimizar o valor da soma dos resíduos ao quadrado nós derivamos a somatória dos mínimos quadrados e igualamos à zero, com isso chegamos na seguinte formula:

Valor de α pelo método dos mínimos quadrados

Em que o simbolo de X e Y com um i minusculo são os valores da amostra e o simbolo de X e Y com chapéu representam a média da amostra.

Após conhecemos o valor de α podemos descobrir o valor de β através da seguinte equação:

Valor de β pelo método dos mínimos quadrados

Como validar a regressão

Para validar a regressão linear nós podemos eleger duas métricas que podem ser muito uteis dependendo de como queremos utilizar a regressão.

O RMSE (Root Mean Squared Error) é uma boa métrica quando queremos utilizar a nossa regressão para fazer previsões. Essa métrica é a soma da diferença entre o valor previsto pela regressão e o valor que realmente aconteceu elevado ao quadrado (para não precisarmos lidar com valores negativos) dividido pela quantidade de amostras, e após isso calculamos a raiz quadrada para termos a métrica na mesma unidade de medida que os nossos dados, assim formula do RMSE é esta logo abaixo.

Fórmula do RMSE

Em que o Yi representa os valores da base de teste e o Yi com chapéu representa o valor previsto e n é a quantidade de dados da base.
O R² que também é conhecido como coeficiente de determinação é uma boa métrica quando o nosso objetivo com a regressão é entendermos a relação entre as variáveis X e Y. Essa métrica é um numero que vai de 0 até 1 e representa o quanto de Y podemos explicar com a variável X. Outro ponto de destaque sobre essa métrica é que ela é o Coeficiente de Pearson elevado ao quadrado. Para calcular o R² utilizamos a seguinte equação:

Equação do R²

Em que Yi representa o valor da amostra Yi com chapéu representa o valor previsto pela regressão e Y com chapéu é a média amostral.


Vantagens e desvantagens da regressão linear

As vantagens da regressão linear consistem na sua facilidade de interpretação o que ajuda também a explicar para a área de negócio como o seu modelo realiza as previsões, além disso sua simplicidade o faz ser encontrado no Excel também o que pode ser de grande ajuda quando não temos ferramentas como o Python e o R disponível no momento.

Como desvantagens da regressão linear podemos listar que é necessário existir uma relação linear entre as variáveis para que o modelo tenha um bons resultados e que como o ajuste é feito pelo método dos mínimos quadrados o modelo de regressão linear é sensível à outliers.


Regressão linear na prática

Agora que conhecemos como uma regressão linear funciona podemos aplica-la. Vou utilizar um exemplo simples em Python com a biblioteca sklearn. A base de dados utilizada nesse exemplo pode ser encontrado no Kaggle através desse link: https://www.kaggle.com/andonians/random-linear-regression

Primeiramente vamos importar as bibliotecas e o dados de treino e teste.

Logo após vamos treinar um modelo de regressão linear do sklearn e dar uma olhada nos resíduos.

Como podemos ver os resíduos tem uma distribuição normal com média próxima de zero, o que quer dizer que conseguimos extrair toda a informação da relação entre X e Y.

Agora vamos validar o modelo e verificar como ficaram as métricas de R² e RMSE.

Utilizando a função da regressão linear do sklearn que retorna o R² e a implementação em Numpy da equação do RMSE nós podemos ver que nessa base de dados os valores X explicam 98% da variação dos valores de Y e o erro do modelo é de aproximadamente 3 unidades de Y.

A analise que serviu de base para esse exemplo está no Kaggle e pode ser acessada através desse link: https://www.kaggle.com/natansilva/exemplo-de-uma-simples-regress-o-linear

Natan Anael

Written by

Cientista de dados, desenvolvedor e entusiasta de ML/Data Ops. Linkedin: https://www.linkedin.com/in/natananaelsilva/

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade