Princípios da Regressão Linear

Neste artigo abordamos a importância da regressão linear, o conceito por trás dela e suas premissas.

Alysson Guimarães
13 min readApr 22, 2022

Introdução

Os dois principais motivo do uso de análise de regressão são predição e inferência. Em várias situações possuímos um conjunto de variáveis mas não a nossa variável de interesse, então as utilizamos para estimar a variável de interesse fazendo uma predição. Já em outras situações temos o interesse em entender a associação entre a variável de interesse e as que possuímos, nessa situação estimamos a variável de interesse mas com o objetivo de fazer inferência, respondendo perguntas sobre a associação das variáveis, qual o seu relacionamento, qual variável mais afeta a variável de interesse, qual não afeta, etc. Para fazer essa estimativa, precisamos encontrar uma função f como Y ≃ f^( X)que para cada observação (X, Y) utilizando abordagens paramétricas e não-paramétricas. O uso da abordagem paramétrica de mínimos quadrados (ordinary least square — OLS) é uma das diversas formas de treinar um modelo linear, e a mais comum.

As análises de regressão linear continuam sendo amplamente utilizadas, e em diversas áreas e como nas ciências sociais e ciências sociais aplicadas, com o objetivo de explicar e predizer fenômenos e entender a correlação entre suas variáveis com a abordagem de mínimos quadrados (OLS). A análise de regressão simples/múltipla é “uma técnica estatística que pode ser usada para analisar a relação entre uma única variável dependente e múltiplas variáveis independentes (preditoras)” (Hair et al, 2009: 176). Assim, estimando o grau de associação entre as variáveis dependente e preditoras. Essa associação é definida em termos de direção, sendo positiva ou negativa, e magnitude, sendo forte ou fraca.

Nas regressões multiplas é possível identificar a contribuição de cada variável independente (explicativa) sobre a capacidade preditiva do modelo. A forma funcional do modelo OLS busca minimizar a soma dos quadrados dos resíduos a partir de uma reta que é utilizada para resumir a relação entre as variáveis dependentes (X) e independentes (Y).

Acurácia vs Interpretabilidade

Existem métodos que são mais flexívels (Ex. Boosting) e outros menos flexívels (OLS), no sentido de que possuem poucas formas de estimar o f. Regressão linear é uma abordagem relativamente inflexível porquê só gera funções lineares, outros métodos são consideravelmente mais flexíveis porque podem produzir uma gama maior de possibilidades de estimar a função.

Trade off entre interpretabilidade e flexibilidade

Se o seu objetivo principal é inferência modelos menos flexíveis, como a regressão linear, preferíveis porquê são mais interpretáveis. Modelos como o Generalized Additive Models são mais flexíveis que a regressão linear, mas são menos interpretáveis porquê o relacionamento entre as variáveis preditoras são modeladas usando uma curva.

Quando estamos interessados apenas em predição, utilizamos modelos mais flexíveis. Eles geralmente possuem melhores resultados, mas existem casos em que os menos flexíveis são melhores. Isso pode acontecer graças a facilidade de overfitting dos modelos mais flexíveis.

Regressão Linear Simples

A regressão linear simples se baseia na predição de uma variável quantitativa dependente (Y) a partir de uma única variável preditora (X), assumindo um relacionamento aproximadamente linear entre X e Y. Ela é descrita matemáticamente como:

Nesta equação, o beta zero e o beta um são duas constantes desconhecidas, que representam os termos intercept e o slope do modelo linear. Ambos também são chamados de coeficientes ou parâmetros do modelo.

Após usar os dados de treino para estimar o β̂0 e β̂1 do modelo, podemos predizer o valor do ŷ, em que ele indica a predição do Y baseado no X = x. Usamos o “chapéu” para indicar o valor estimado para um parâmetro ou coeficiente desconhecido, ou para indicar o valor predito.

Como os coeficientes β0 e β1 são desconhecidos precisamos estimalos para que possamos fazer as predições.

n representa os pares de observações entre as variáveis dependentes e independentes e nosso objetivo é estimar os coeficientes β̂0 e β̂1 que melhor ajustem a reta da regressão, sendo yi ≃ β̂0 + β̂1 para cada i = 1,…, n.

Existem várias formas de mensurar a proximidade do valor predito com o real, mas de longe o método de mínimos quadrados (least squares) é o mais usado.

O ŷi = β̂0 + β̂1 xi a predição de Y com base no iésimo valor de X, então ei = yi − ŷi representa o iésimo resíduo. O resíduo é a diferença entre o valor real e o valor predito pelo modelo linear.

O método de mínimos quadrados busca os coeficientes que minimizem a Soma Residual dos Quadrados (Residual Sum of Squares), que mede o nível de variância dos resíduos. Sendo ele

Residual Sum of Squares
Regressão Linear Simples. O ajuste é encontrado minimizando a soma residual de quadrados. Cada linha cinza representa o resíduo

A abordagem de mínimos quadrados (OLS) busca minimizar a soma residual dos quadrados (RSS):

Contorno e plot tridimensional do RSS. O Ponto vermelho corresponde ao mínimo quadrado estimado β̂0 e β̂1

Assumimos que a relação linear era verdadeira entre X e Y em Y = f (X) + ϵ para uma função desconhecida f, em que o epsilon é um termo de erro aleatório de média zero. Se f deve ser aproximado por uma função linear, então podemos escrever esta relação como:

Este modelo nos dá uma aproximação linear entre X e Y da reta de regressão da população. O beta zero é o termo intercept, ou seja, o valor esperado de Y quando X = 0 e o beta um é o slope, o aumento/diminuição médio em Y associado com um aumento/diminuição unitário em X. O termo de erro é o que não conseguimos explicar somente com este modelo ou variáveis e ele é independente do X.

Com dados reais, o relacionamento real entre X e Y, ou reta de regressão da população, não é conhecido, mas a reta de mínimos quadrados sempre pode ser calculada usando as estimativas dos coeficientes.

Medimos a acurácia dos coeficientes estimados através do erro padrão (standart error). Ele é uma estatística que mede a variação de uma média amostral em relação à média da população, é uma medida que nos ajuda a verificar a confiabilidade da média amostral calculada. Obetemos uma estimativa do erro padrão dividindo o desvio padrão pela raiz quadrada do tamanho amostral. Para os coeficientes o erro padrão mede o grau de precisão com que o modelo estima o valor do coeficiente da população. Quanto mais observações temos, menor é o erro padrão. Calculamos o erro padrão da seguinte forma:

Utilizamos o erro padrão para calcular os intervalos de confiança (confidence intervals). Um intervalo de confiança de 95% é um range de valores que tem 95% de probabilidade de conter o valor populacional ou desconhecido do parâmetro, ou seja, se pegarmos amostras repetidamente e construirmos o intervalo de confiança para cada amostra, 95% dos intervalos conterão o verdadeiro valor desconhecido do parâmetro. Esse intervalo é definido com inferior e superior e é calculado a partir dos dados da amostra. Para regressão linear, o intervalo de confiança de 95% para β1 assume a seguinte fórmula:

O erro padrão (SE ou Standart Error) também é usado para testes de hipótese nos coeficientes, como

H0: Não existe relacionamento entre X e Y

contra a hipótese alternativa

H1: Existe algum relacionamento entre X e Y

Matemáticamente corresponde a testar

H0 : β 1 = 0 versus H1 : β1 != 0

Para testar a hipótese nula precisamos determinsar se o β̂1 é suficientemente distante do zero, que podemos confiar que o β1 não é zero. O quão longe depende do erro padrão do beta 1 estimado SE(β̂1). Se ele for suficientemente pequeno, então temos fortes evidências de que β1 != 0 e existe um relacionamento entre X e Y. Caso o erro padrão do beta1 estimado seja grande, então o beta1 estimado deve ser grande em valor absoluto e não podemos rejeitar a hipótese nula. Calculamos o t-statistic, dado por:

Que mede o número de desvios padrões que o beta 1 estimado está do 0. Caso realmente não existe uma relação entre X e Y, então que o valor de t tenha uma distribuição t de student com n menos 2 graus de liberdade. Então calculamos a probabilidade de observar qualquer número igual a |t| ou maior em valor absoluto, assumindo β1 = 0. Chamamos essa probabilidade de p-valor. Resumidamente: Interpretamos o p-valor como um indicativo que é improvável observar uma associação tão significativa entre o preditor e a resposta devido ao acaso, na ausência de qualquer associação real entre o preditor e a resposta.

Portanto, se observarmos um p-valor pequeno, podemos inferir que existe uma associação entre o preditor e a resposta. Assim, rejeitamos a hipótese nula e afirmamos que existe uma relação entre X e Y quando o p-valor for suficientemente pequeno. Os pontos de corte típicos do p-valor para rejeitar a hipótese nula são 5% ou 1%.

Confirmada a rejeição da hipótese nula precisamos saber a acurácia do modelo, ela é feita através do R² e do erro padrão residual (residual standart error ou RSE).

O RSE é uma estimativa do desvio padrão do erro do modelo, é o desvio médio que a resposta faz da reta de regressão real. Assim, mede em valores absolutos o quanto o modelo não se ajustou, e quanto menor o seu valor, mais próximo a predição está do valor real. O RSE é calculado como:

Erro padrão residual

A estatística R² é uma alternativa de mensuração do ajuste do modelo. Ela é a proporção da variância explicada pelo modelo, e fica entre 0 e 1. Para calcular o R² usamos a fórmula:

O TSS é a soma total dos quadrados (total sum of squares) e mede a variância em resposta ao Y, pode ser definido como a quantidade de variabilidade inerente em resposta antes da regressão ser performada. Já o RSS mensura a quantidade de variabilidade não explicada pela performace da regressão, então TSS — RSS temos a variabilidade explicada pela performace do modelo. Quanto mais próximo de 1 o R², mais a proporção da variabilidade em Y é explicada usando X.

Regressão Linear Multipla

A regressão linear simples é uma ótima abordagem para predizer uma responsa baseado em uma única variável preditora, mas na prática quase nunca isso acontece. Assim, precisamos extender a regressão linear simples para adicionar mais preditores.

Assim como na regressão simples, na multipla os coeficientes também são desconhecidos e devem ser estimados β̂0 , β̂1 , …, β̂p usando a fórmula:

Os parâmetros são estimados da mesma forma utilizando a abordagem de mínimos quadrados já vista, em que buscamos os coeficientes que minimizem a soma dos quadrados residuais

Para testar a hipótese de que existe um relacionamento entre as variáveis preditoras e resposta fazemos como visto com a regressão simples, mas comparando se todas as variáveis são iguais a zero

H0 : β 1 = β 2 = · · · = β p = 0

contra a hipótese alternativa

H1: pelo menos um β é diferente de zero

O teste é performado computando o a estatística F (F-statisc)

Quanto mais o F-statisc for maior que um, mais temos forte evidência de que a hipótese alternativa é verdadeira.

Pressupostos do modelo OLS

Diferentes autores apresentam diferentes pressupostos que precisam ser atendidos para que a análise de regressão OLS possa ser utilizada adequadamente para produzir o Melhor Estimador Linear Não-Enviesado (MELNV) ou (Best Linear Unbiased Estimator, o BLUE). Um estimador é BLUE quando atende as propriedades de produzir uma menor variância (Best), sua relação é linear (Linear) e sua distribuição amostral é não-enviesada (Unbiased), ele é enviesado quando sistematicamente sobreestima ou subestima o valor do parâmetro populacional.

É comum encontrar um número diferente de premissas em posts e artigos, porquê alguns deles são assumidos que já são cumpridos pela metodologia utilizada para entender o fenômeno antes da aplicação do modelo. A violação de cada pressuposto se relaciona a um determinado problema, por isso é importante entender mesmo que de modo geral qual a função de cada um dos pressupostos. Sendo elas:

Premissas implícitas:

  • Mensuração das variáveis: Variáveis mal mensuradas vão produzir estimativas inconsistentes, se elas são mensuradas com erros, as estimativas do intercepto e dos coeficientes serão viesados e os testes de significância e intervalo de confiança serão afetados. Para contornar esse problema de erros na mensuração podem ser utilizados modelos de regressão generalizados, variáveis instrumentais e modelos de equações estruturais.
  • O modelo deve ser especificado adequadamente. Todas as variáveis independentes relevantes devem ser incluídas no modelo e nenhuma variável irrelevante deve ser incluída, já que produz ineficiência nos estimadores e aumentam o erro padrão.
  • O número de observações deve ser maior que a quantidade de parâmetros. Para que os calculos possam ser feitos, os algoritmos invertem a matriz e caso o número de parâmetros seja maior que a quantidade de observações, a estimação se torna matematicamente impossível.
  • Independência entre variáveis preditoras e os resíduos: Os termos residuais são valores aleatórios independentes e identicamente distribuídos. Serem independentes significa que eles não estão relacionados a variáveis preditoras. Nas pesquisas não experimentais como não podemos manipular o valor da variável indepentente, todas as variáveis importantes devem estar no modelo. Mas existindo correlação entre elas, as estimativas serão viesadas.

Premissas de Gauss-Markov:

  • Lineariedade: A relação entre as variáveis dependentes e independentes deve poder ser representada por uma função linear. Sem lineariedade não existe regressão linear. Quanto mais a relação entre as variáveis se afasta de uma função linear, menor é a aplicabilidade do OLS para ajustar o modelo, assim, a diferença entre os parâmetros estimados e obsevados só aumenta. A lineariedade implica que o aumento unitário em X gera o mesmo efeito em Y, independente do valor inicial de X. Em uma relação não linear em que existe associação entre as variáveis não é possível detecta-la usando OLS. Para detectar a lineariedade podemos fazer o teste de Harvey-Collier e/ou um scatterplot entre as variáveis Y vs X. A hipótese nula é do Harvey-Collier de que a regressão é linear. Se p-valor < alfa a regressão não é linear.
  • Homocedasticidade: Significa que a variância dos resíduos deve ser constante. Quando o Y e os resíduos aumentam se tem heterocedasticidade. A violação desse pressuposto afeta a confiabilidade dos testes de significância e intervalos de confiança, se tornam incorretos. Modelos OLS heterocedásticos perdem a propriedade de melhor estimar os parâmetros populacionais. Uma forma de detectar heterocedasticidade é analisar a dispersão dos resíduos vs valores preditos, quanto mais aleatória for a dispersão, mais provável que o modelo seja homocedástico, mas caso forme padrões, existem indícios padrões, há presença de heterocedasticidade. Quando detectado heterocedasticidade, é preciso aumentar o número de observações e transformar as variáveis. Também podemos realizar o teste de Breusch-pagan, nele a hipótese nula é de que existe homocedasticidade. Se p-valor < alfa existe heterocedacidade.
  • Ausência de autocorrelação entre as observações: Nesta premissa as observações e os resíduos devem ser independentes. Um valor de uma observação não deve influênciar a seguinte. Sendo independentes não existe correlação entre os resíduos. Quando violado, a confiabilidade dos testes de significância e intervalos de confiança é afetada. Para detectar a presença de auto-correlação pode ser utilizado o teste de Durbin-Watson. Ele varia de 0 a 4, e quanto mais próximo do zero, maior é a correlação posiiva e quanto mais próximo do quatro, maior é a correlação negativa. Os valores entre 1,5 e 2,5 sugerem indícios de independência entre as observações.
  • Multicolineariedade: O estimador mesmo com multicolineariedade, correlação entre as variáveis independentes, continua não viesado (BLUE) atendendo as premissas clássicas (lineariedade, homocedasticidade e independencia das observações), mas aumenta a magnitude da variância dos parâmetros estimados. A presença de altos níveis de correlação entre as variáveis independentes impossibilita a estimação precisa do efeito de cada variável sobre a variável dependente. Para detectar multicolineariedade podemos fazer o teste Variance Inflation Factor (VIF) e/ou visualizar uma matriz de correlação (pearson) entre as variáveis independentes. O calculo de VIF é feito em cada variável indepentente, se igual a 1 não existe correlação, de 1 a 5 existe correlação moderada e maior que 5 existe alta correlação.
  • Distribuição do termo de erro: O erro amostral deve seguir uma distribuição aproximadamente normal, seguindo as premissas do teorema de Gauss-Markov, para que os estimadores Beta e o sigma encontrados a partir do OLS sejam não-viesados e eficientes.
  • Termo de erro aleatório centrado no zero: Esse pressuposto significa que fatores não incluídos no modelo (compondo o termo de erro) não afetam sistematicamente o valor médio de Y, já que os pontos positivos e negativos se anulam. Quando violado, a consistência do intercepto fica comprometida, mas o slope não é afetado. A normalidade do resíduo não é estritamente necessária, já que raramente acontecerá na prática, sendo uma parte somente desejável dessa premissa.

Conclusão

rs

Este artigo abordou brevemente os conceitos e premissas da regressão linear, um modelo muitas vezes subestimado pela sua simplicidade. Regressão linear muitas vezes supera modelos mais complexos em seus resultados, além de ser mais explicável, o que conta muito num contexto seja de negócios ou pesquisa.

Siga o meu perfil e se inscreva para receber para acompanhar os próximos posts sobre outros modelos de regressão, mas não lineares.

Referências

G. James et al., An Introduction to Statistical Learning, Springer Texts in Statistics, https://doi.org/10.1007/978-1-0716-1418-1_1

Figueiredo Filho, et al. O que Fazer e o que Não Fazer com a Regressão: pressupostos e aplicações do modelo linear de Mínimos Quadrados Ordinários (MQO), Revista Política Hoje, Vol. 20, n. 1, 2011.

--

--

Alysson Guimarães

Data Scientist. MBA Competitive Intelligence, Bachelor of Business Administration.