Uma breve introdução à Regressão Linear

Natalia Gonçalves
22 min readJul 9, 2023

--

O que é Regressão Linear?

Imagine que você se pergunte se a renda de uma pessoa está relacionada ao tempo que ela dedica aos estudos. Em outras palavras, você quer saber se a renda aumenta à medida que o tempo de estudo aumenta. A regressão linear pode ser uma abordagem adequada para responder a essa pergunta. Nesse caso, o tempo de estudo é a variável que você possui e a renda é a variável que você deseja estimar.

Para investigar essa relação, você coleta dados contendo informações sobre a renda e o tempo de estudo de várias pessoas. Em seguida, você representa esses dados em um gráfico e observa a tendência de que a renda tende a aumentar conforme o tempo de estudo aumenta.

Com os dados preparados, o próximo passo é encontrar a reta que melhor representa a relação entre a renda e o tempo de estudo. Uma vez que a reta de regressão é encontrada, ela pode ser utilizada para fazer previsões. Por exemplo, se você tiver o tempo de estudo de uma pessoa, poderá utilizar a reta de regressão para estimar a renda correspondente a esse tempo de estudo.

Simples, certo? Não, a regressão linear possui várias nuances que se não forem consideradas podem invalidar o seu modelo. Vamos explorar um pouco mais o assunto?

Como a Regressão Linear faz previsões?

Você coletou, explorou e preparou os dados e agora está pronto para construir seu modelo usando Regressão Linear. Durante o treinamento da Regressão Linear, nosso objetivo é encontrar a reta que melhor representa a relação entre duas variáveis.

Quando dizemos que queremos encontrar a reta que melhor representa o relacionamento entre duas variáveis, estamos nos referindo a encontrar uma reta que esteja o mais próxima possível de todos os pontos de dados simultaneamente. De forma que a distância entre a reta e cada ponto seja a menor possível.

Bom, essa reta possui uma equação que é dada por:

Y = a + bX

Onde:

  • Y é a variável dependente que queremos prever,
  • a é o intercepto da linha de regressão,
  • b é o coeficiente que representa a inclinação da reta. Ele indica a mudança na variável dependente (Y) para uma mudança de uma unidade na variável independente (X).

Ao observar a figura abaixo, qual das linhas você consideraria como a melhor representação do relacionamento entre as variáveis X e Y? Essa não é uma pergunta fácil de responder! Vamos explorar como o algoritmo encontra essa linha.

Fonte: StatQuest-The Main Ideas of Fitting a Line to Data

Como encontrar a reta que melhor se ajusta aos dados?

Encontrar a reta que melhor se ajusta aos dados envolve otimizar uma função custo, que mede a diferença entre os valores observados e os valores previstos pelo modelo, que pode ser representada matematicamente como:

min Σ(Yi — Ŷi)²

A imagem abaixo é a representação gráfica dessa fórmula.

Fonte: StatQuest-The Main Ideas of Fitting a Line to Data

Existem duas abordagens amplamente utilizadas para otimizar a função custo na regressão linear: o método dos Mínimos Quadrados (OLS) e o Gradiente Descendente.

O método dos Mínimos Quadrados (OLS) é uma técnica analítica que busca minimizar a soma dos quadrados dos resíduos diretamente. Ele fornece uma solução fechada que nos dá os coeficientes de regressão, ou seja, os parâmetros que definem a reta que melhor se ajusta aos dados. O OLS é especialmente útil quando o conjunto de dados é de tamanho moderado e a função custo é uma função linear.

Por outro lado, o Gradiente Descendente é uma abordagem iterativa para otimizar a função custo na regressão linear. Essa técnica é utilizada quando a solução analítica não é viável, como em casos onde o conjunto de dados é muito grande ou a função custo é complexa.

Eu pessoalmente acho o Gradiente Descendente mais fácil de entender, pois é um método de otimização iterativo e, portanto, mais intuitivo. Vou usar o Gradiente Descendente como exemplo para facilitar o entendimento, dividindo o processo em etapas.

  1. Inicialização dos parâmetros: Começamos atribuindo valores aleatórios aos parâmetros (coeficientes) do modelo de regressão.
  2. Realização de previsões: Usamos os parâmetros atuais para fazer previsões para os dados de treinamento.
  3. Cálculo do erro: Comparamos os valores previstos pelo modelo com os valores observados e calculamos o erro utilizando uma função de custo pré-determinada, como MAE (erro médio absoluto) ou MSE (erro médio quadrático). O erro nos fornece uma medida da diferença entre as previsões do modelo e os valores reais.
Fonte: StatQuest-The Main Ideas of Fitting a Line to Data

4. Cálculo dos gradientes — Uma vez que temos os erros calculados, podemos plotá-los em função dos valores dos parâmetros. Em seguida, calculamos a derivada parcial do erro em relação a cada parâmetro.

Fonte: StatQuest-The Main Ideas of Fitting a Line to Data
  • A derivada parcial nos indica como o erro muda quando fazemos pequenos ajustes nos parâmetros da função. Ao calcular as derivadas parciais em relação aos parâmetros, podemos compreender como o erro é afetado por mudanças específicas em cada parâmetro, permitindo otimizar esses parâmetros para reduzir o erro global do modelo.
  • Geometricamente, a derivada parcial representa a inclinação da curva da função de erro em relação a um parâmetro específico. A inclinação indica a taxa de variação do erro à medida que o parâmetro é ajustado. Uma derivada parcial maior (maior inclinação) indica que pequenas mudanças no parâmetro têm um efeito significativo no erro, enquanto uma derivada parcial menor (menor inclinação) indica que pequenas mudanças no parâmetro têm um efeito menos significativo no erro. Isso nos ajuda a entender como os diferentes parâmetros influenciam o desempenho do modelo e orienta a otimização desses parâmetros para obter uma melhor ajuste aos dados.

5. Atualização dos parametros — Calculando o valor dos gradientes, determinamos a direção e magnitude na qual os parâmetros devem ser atualizados para minimizar o erro. Quanto mais próximo de zero o gradiente estiver, mais próximos dos valores ótimos para os parâmetros o algoritmo estará.

  • A estratégia usada pelo gradiente descendente é dar passos maiores quando está longe do mínimo e passos menores quando está próximo de zero. Isso evita que o algoritmo demore muito tempo para convergir (encontrar o ponto mais baixo da função) ou ultrapasse o mínimo global da função..

Tamanho do passo = gradiente x learning rate

A taxa de aprendizagem (learning rate) atua como um fator que controla a magnitude da atualização dos parametros.

  • O gradiente aponta na direção da “subida mais acentuada”, que é a direção na qual os valores da função estão aumentando à medida que nos movemos ao longo da mesma. Por isso, para minimizar o erro ou função custo, precisamos mover na direção oposta do gradiente, que é a direção da “descida mais acentuada”.

O novo valor do parâmetro é calculado subtraindo o tamanho do passo do valor anterior do parâmetro.

Novo Parâmetro = parâmetro anterior — tamanho do passo

Fonte: StatQuest-The Main Ideas of Fitting a Line to Data

6. Repita os passos 2–6 — Repita o processo fazendo previsões, calculando o erro, calculando os gradientes e atualizando os parâmetros até que um critério de parada seja atendido. Esse critério pode ser alcançar um certo número de iterações ou atingir o nível desejado de convergência, que idealmente ocorre quando os gradientes se aproximam de zero.

Fonte: StatQuest-The Main Ideas of Fitting a Line to Data

Ao repetir esses passos, o algoritmo de otimização busca iterativamente ajustar os parâmetros do modelo para reduzir o erro global e encontrar o melhor ajuste para os dados. Esse processo de atualização iterativa é o que permite que o modelo de regressão linear encontre a reta que melhor se ajusta aos dados e faça previsões mais precisas.

Regressão Linear Múltipla

Até o momento discutimos a Regressão Linear usando somente uma variável, a chamada Regressão Linear Simples. No entanto, bons modelos requerem regressões múltiplas para lidar com a maior complexidade dos problemas.

Enquanto na regressão linear simples temos uma reta representando a relação entre duas variáveis, na regressão linear múltipla, temos um hiperplano representando a relação entre mais de duas variáveis. Cada variável é representada por um eixo e o hiperplano é definido pelos coeficientes de regressão correspondentes a cada variável. Visualmente, podemos pensar em uma superfície no espaço que melhor se ajusta aos dados, capturando as interações e influências conjuntas das variáveis independentes na variável dependente.

A ideia por trás da Regressão Linear Múltipla é encontrar a melhor combinação linear das variáveis independentes para prever a variável dependente. Cada variável independente tem seu próprio coeficiente, que representa o efeito que essa variável tem sobre a variável dependente, controlando o efeito das outras variáveis independentes. Para ajustar um modelo de Regressão Linear Múltipla, usamos métodos semelhantes aos da Regressão Linear simples.

A Regressão Linear Múltipla é uma abordagem poderosa para analisar problemas complexos que envolvem múltiplos fatores que afetam um resultado. Permite modelar relacionamentos mais realistas entre as variáveis independentes e dependentes, fornecendo insights valiosos sobre como essas variáveis se relacionam e contribuem para o resultado desejado.

Avaliação do modelo

Após obter os coeficientes do modelo de regressão linear, é importante realizar uma avaliação do desempenho do mesmo. Nesse sentido, há quatro aspectos principais que desejamos analisar:

  • Equação da regressão
  • Significância do modelo
  • Poder explicativo do modelo
  • Precisão das previsões do modelo

Esses são alguns aspectos-chave a serem considerados ao avaliar um modelo de regressão linear, para determinar sua adequação e confiabilidade na análise dos dados.

Entretanto, é fundamental destacar que a avaliação da significância do modelo e a realização de inferências estatísticas são aplicáveis especificamente quando os coeficientes foram estimados utilizando o método dos Mínimos Quadrados (OLS). O método dos Mínimos Quadrados possui propriedades estatísticas bem estabelecidas, que permitem a aplicação de testes de significância e a obtenção de intervalos de confiança para os coeficientes estimados. Essas técnicas estatísticas fornecem uma base sólida para a interpretação dos coeficientes e a tomada de decisões estatísticas.

No entanto, quando os coeficientes são estimados usando o Gradiente Descendente ou outros métodos de otimização iterativos, não é possível realizar as mesmas inferências estatísticas diretamente. Isso ocorre porque esses métodos não fornecem os mesmos resultados estatísticos associados ao método dos Mínimos Quadrados.

O Gradiente Descendente é um algoritmo de otimização iterativo que busca minimizar a função de custo do modelo, ajustando os coeficientes ao longo do processo de iteração. Embora seja uma abordagem eficaz para encontrar os valores ótimos dos coeficientes, o Gradiente Descendente não fornece informações estatísticas sobre a significância dos coeficientes ou a incerteza associada a eles.

Portanto, ao usar o Gradiente Descendente para estimar os coeficientes de um modelo de regressão linear, não é possível realizar inferências estatísticas tradicionais, como testes de significância ou intervalos de confiança. Isso não invalida o uso do Gradiente Descendente como método de otimização, pois ele ainda pode ser eficaz para ajustar o modelo aos dados e fazer previsões. No entanto, é importante estar ciente de que as interpretações estatísticas dos coeficientes não são aplicáveis quando eles são estimados usando o Gradiente Descendente.

Agora que esclarecemos esse ponto, vamos explorar cada um desses aspectos separadamente, utilizando dados sintéticos como exemplo para ilustrar a relação entre renda e anos de estudo. A figura abaixo representa o resultado da nossa regressão linear, e vamos entender como interpretá-la.

Equação da regressão

Como vimos anteriormente a equação da regressão linear nos fornece uma forma matemática para estimar o valor da variável dependente com base nos valores das variáveis independentes. No caso do exemplo de renda e anos de estudo, a equação da regressão pode ser expressa como:

Renda = 4.0710 + 0.4579 * Anos de Estudo

Nesta equação, “Renda” representa o valor previsto da renda com base no modelo de regressão linear. “Anos_de_Estudo” é a variável independente que representa o número de anos de estudo de uma pessoa.

O coeficiente do intercepto (4.0710) indica o valor esperado da renda quando todos os outros fatores são zero. No entanto, neste caso específico, provavelmente não faz muito sentido interpretar o valor do intercepto, pois é pouco provável que uma pessoa tenha zero anos de estudo e ainda tenha uma renda positiva.

O coeficiente de “Anos_de_Estudo” (0.4579) representa a inclinação da reta, indicando que para cada aumento unitário no número de anos de estudo, espera-se um aumento de 0.3718 na renda, considerando todas as outras variáveis constantes.

Análise de significância

A análise de significância do modelo e dos coeficientes é uma etapa crucial na análise de regressão. Ela nos permite avaliar a confiabilidade e a importância estatística do modelo como um todo, bem como dos coeficientes individuais.

A interpretação da análise de significância é baseada nas hipóteses nula e alternativa.

  • A hipótese nula assume que todos os coeficientes são iguais a zero
  • A hipótese alternativa assume que pelo menos um dos coeficientes é diferente de zero

A Estatística F (F-statistic): 1594.0testa a significância global do modelo, ou seja, se pelo menos uma das variáveis independentes contribui significativamente para explicar a variabilidade na variável dependente. Quanto maior o valor da estatística F associada a um valor-p pequeno, mais perto de um modelo significante. No caso do nosso exemplo, o valor extremamente baixo (1.96e-62) indica que o modelo é estatisticamente significativo.

Coeficientes: Além da significância do modelo como um todo, é importante avaliar a significância dos coeficientes individuais. Isso nos permite determinar se cada variável independente contribui significativamente para a variação da variável dependente, levando em consideração os demais fatores do modelo. Para cada coeficiente, também utilizamos o valor-p associado ao teste t, que indica a probabilidade de obter um valor tão extremo quanto o observado, se a hipótese nula de que o coeficiente é igual a zero for verdadeira. Coeficientes com valor-p baixo são considerados estatisticamente significativos.

O erro padrão é uma medida importante na avaliação da qualidade do modelo de regressão. Quanto menor for o erro padrão, mais precisas serão as estimativas dos coeficientes do modelo e mais confiáveis serão as previsões feitas com base nele.

Olhando para o nosso exemplo vemos que:

  • intercepto: 4.0710, com um erro padrão de 1.191.
  • anos_estudo: 0.4579, com um erro padrão de 0.011.
  • O p-valor (P>|t|) para ambos os coeficientes é extremamente baixo 0.001 para o intercepto e 0.000 para a variável “anos de estudo”, o que indica que ambos os coeficientes são estatisticamente significativos.

A análise de significância do modelo e dos coeficientes nos ajuda a entender se as relações identificadas são estatisticamente robustas e se podemos confiar nas conclusões tiradas a partir do modelo. Ela também nos auxilia na seleção de variáveis relevantes para o modelo e na identificação de possíveis problemas, como variáveis não significativas. Em resumo, a análise de significância é fundamental para garantir a qualidade e a validade dos resultados obtidos na análise de regressão.

Poder explicativo

O poder explicativo em regressão refere-se à capacidade do modelo de explicar a variação na variável dependente com base nas variáveis independentes. Ele indica o quanto o modelo é capaz de capturar e explicar os padrões e relacionamentos presentes nos dados.

O coeficiente de determinação (R-quadrado) é uma métrica amplamente utilizada para medir o poder explicativo em regressão. Antes de chegar a fórmula do R2 vamos entender melhor os três termos abaixo.

Na representação geométrica abaixo:

  • SST (Sum of Squares Total) = Variabilidade total dos valores observados.
  • SSR (Sum of Squares Regression) = Variação na variável dependente que é capturada pelo modelo de regressão.
  • SSE (Sum of Squares Error) = Variação não explicada pelo modelo, o erro.

Matematicamente:

Baseado no gráfico e na fórmula fica claro que dada uma variabilidade total constante, um valor menor do erro resultará em um melhor modelo. Agora fica mais fácil entender o porque de:

Simplificando, o R-quadrado mede a proporção da variação total da variável dependente que é explicada pelo modelo de regressão. Quanto mais próximo de 1, maior o poder explicativo do modelo.

No nosso exemplo (R2 = 0.942), o modelo de regressão linear que inclui apenas a variável “anos de estudo” explica aproximadamente 94% da variação total observada na renda. Isso significa que a relação entre a variável “anos de estudo” e a renda é capaz de explicar cerca de 94% das diferenças na renda das pessoas na amostra analisada. Os outros 6% da variação da renda são atribuídos a outros fatores não considerados no modelo.

Cada vez que adicionamos mais uma variável independente no modelo, R-quadrado tende a aumentar (não é uma regra, mas uma tendência), mesmo que a váriavel independente não seja significante. Aí que entra, o R-quadrado ajustado.

A fórmula do coeficiente de determinação ajustado (R-quadrado ajustado) é:

R-quadrado ajustado = 1 — [(1 — R2) * (n — 1) / (n — k — 1)]

Onde:

  • R2 é o coeficiente de determinação (R-quadrado).
  • n é o número de observações no conjunto de dados.
  • k é o número de variáveis independentes (parâmetros) no modelo.

Essa fórmula ajusta o R-quadrado pela quantidade de variáveis independentes no modelo, penalizando a inclusão de variáveis desnecessárias ou irrelevantes. Quanto maior o valor do R-quadrado ajustado, maior o poder explicativo do modelo, considerando o número de variáveis independentes.

Vamos inserir mais uma variável no nosso modelo, “signo do zodíaco”, o nome é só para ficar claro que ela é irrelevante para o nosso modelo.

Ao analisar os resultados da regressão após adicionar a variável “signo do zodíaco”, observamos que o R-quadrado não apresentou alterações significativas, enquanto o R-quadrado ajustado diminuiu. Isso sugere que a inclusão dessa variável não contribuiu de forma significativa para explicar a variação adicional na variável dependente (renda), além das outras variáveis independentes já presentes no modelo.

Além disso, observamos uma queda no valor do F-statistic e um aumento no valor-p associado ao teste, indicando que a variável “signo do zodíaco” não é estatisticamente relevante para o modelo.

Em geral, esses resultados sugerem que o modelo pode ser melhorado removendo a variável “signo do zodíaco”, uma vez que ela não contribui significativamente para a explicação da variação na renda.

Em resumo, o R2 é uma medida do ajuste geral do modelo, enquanto o R2 ajustado leva em consideração a complexidade do modelo, evitando ajustes excessivos. O R2 ajustado é uma medida mais conservadora e recomendada quando se trabalha com múltiplas variáveis independentes.

É importante observar que R2 e R2 ajustado não são medidas de causalidade ou qualidade das previsões do modelo. Eles indicam quão bem o modelo se ajusta aos dados observados e explicam a variação na variável dependente com base nas variáveis independentes utilizadas no modelo.

Precisão das previsões do modelo

A precisão das previsões de um modelo é determinada pela proximidade entre os valores previstos pelo modelo e os valores reais observados. Essa precisão pode ser avaliada por meio de diversas métricas, como o erro médio absoluto (MAE), o erro médio quadrático (MSE) e o erro médio percentual absoluto (MAPE). Essas métricas ajudam a medir o desempenho do modelo e a determinar quão precisas são suas previsões.

O erro médio absoluto (MAE) é a média das diferenças absolutas entre os valores observados e os valores previstos pelo modelo. Ele mede a magnitude média do erro e fornece uma medida direta da precisão das previsões.

O erro médio quadrático (MSE) é a média dos erros ao quadrado entre os valores observados e os valores previstos. A diferença entre o MAE e o MSE é que o MSE tende a ser mais sensível a erros grandes, enquanto o MAE fornece uma medida mais balanceada da precisão das previsões. A escolha entre o MAE e o MSE depende do contexto específico e das características do problema em questão.

O erro médio percentual absoluto (MAPE) é a média das diferenças percentuais absolutas entre os valores observados e os valores previstos, expressa como uma porcentagem. Ele fornece uma medida relativa da precisão das previsões e é útil para comparar modelos em diferentes escalas de dados.

Para ilustrar essas métricas, consideremos um exemplo em que estamos prevendo o preço de imóveis. Suponha que nosso modelo tenha um MAE de $5000. Isso significa que, em média, nossas previsões de preço estão desviando em $5000 dos preços reais dos imóveis. Já o MSE pode ser de $1 milhão, indicando um erro médio ao quadrado de $1 milhão entre as previsões e os preços reais. O MAPE, por sua vez, pode ser de 8%, sugerindo que, em média, nossas previsões estão desviando em 8% dos preços reais dos imóveis.

É importante lembrar que a escolha da métrica mais adequada dependerá do contexto específico do problema e das características dos dados. Em alguns casos, um determinado erro pode ser mais crítico do que outros, e a métrica escolhida deve refletir essa importância. Além disso, é útil comparar as previsões com uma linha de base simples, como a média dos valores observados, para determinar se o modelo está trazendo benefícios significativos em termos de precisão das previsões.

Suposições da Regressão Linear

Ao utilizar o método dos Mínimos Quadrados (OLS) para estimar os coeficientes do modelo de regressão linear, algumas premissas específicas são consideradas para que as estimativas sejam confiáveis. Essas premissas são conhecidas como as suposições do modelo de regressão linear.

Se essas suposições não forem atendidas, as estimativas dos coeficientes podem ser viesadas ou ineficientes, e as inferências estatísticas feitas a partir delas podem estar incorretas. Portanto, é importante verificar se essas suposições são razoavelmente satisfeitas antes de fazer análises inferenciais ou interpretar os coeficientes estimados.

No entanto, quando o objetivo da análise é puramente preditivo, o não atendimento das premissas não invalida o modelo como uma ferramenta útil para fazer previsões. Mesmo que as premissas estatísticas não sejam satisfeitas, o modelo ainda pode ser capaz de capturar padrões e relacionamentos nos dados que o tornam adequado para fazer previsões precisas.

Portanto, é importante distinguir entre o uso de um modelo para fazer previsões e o uso do mesmo modelo para inferências estatísticas. Enquanto a falta de atendimento das premissas pode ser problemática para inferências, não necessariamente inviabiliza a utilização do modelo para fins preditivos.

Tendo esclarecido isso, vamos agora ver cada uma das suposições da Regressão Linear.

  1. Linearidade

A Regressão Linear é chamada linear porque a equação é linear. Então para construir um modelo de Regressão Linear o relacionamento entre a variável dependente e independentes tem que ser linear. Como podemos verificar isso? A forma mais fácil é plotar Y em função de X em um gráfico de dispersão. Se os dados formarem um padrão que parece uma reta, então regressão linear é adequado.

Caso não seja observado um padrão linear nos dados, existem algumas alternativas para lidar com essa situação. Algumas opções incluem:

  • Usar um modelo não linear: Em vez de usar a regressão linear tradicional, é possível explorar modelos não lineares, como regressão polinomial ou modelos de séries temporais, dependendo da natureza dos dados e do relacionamento esperado.
  • Transformação exponencial: Se houver uma tendência exponencial nos dados, é possível aplicar uma transformação exponencial para linearizar o relacionamento. Por exemplo, se os dados seguem um padrão exponencial crescente, aplicar uma transformação logarítmica na variável dependente pode resultar em um relacionamento linear.
  • Transformação logarítmica: Em alguns casos, uma transformação logarítmica pode ser aplicada para linearizar o relacionamento entre as variáveis. Isso é útil quando há uma variação maior nos valores altos da variável dependente do que nos valores baixos.

A escolha da transformação depende da natureza dos dados e do relacionamento que se deseja capturar.

2. Endogeneidade

No contexto da análise de regressão, “endogeneidade” refere-se a uma situação em que uma ou mais variáveis independentes estão correlacionadas com o erro do modelo.

Quando uma variável independente relevante é omitida de um modelo de regressão linear, o erro residual resultante pode se tornar correlacionado com as demais variáveis independentes. Isso ocorre porque a variável omitida pode ter uma relação sistemática com as variáveis independentes incluídas no modelo, mas não está sendo considerada na estimativa dos coeficientes. Como resultado, o erro residual passa a capturar parte da variação que deveria ser explicada pela variável omitida, levando a uma correlação entre o erro residual e as demais variáveis independentes.

Esse presuposto assume que você inclua todas as variáveis explicativas relevantes no seu modelo. Se omitirmos variáveis importantes, o modelo será mal especificado e os coeficientes atribuídos às variáveis presentes podem estar distorcidos. Portanto, é fundamental garantir que todas as variáveis relevantes sejam consideradas ao construir um modelo de regressão.

É importante ressaltar que a detecção e o tratamento da endogeneidade são desafios complexos e dependem do contexto específico do modelo e dos dados em questão.

3. Normalidade dos erros

O pressuposto de normalidade na regressão linear estabelece que os resíduos do modelo devem seguir uma distribuição normal. Isso significa que os resíduos devem estar aproximadamente distribuídos simetricamente em torno de zero, com a maioria dos resíduos próximos de zero e uma proporção semelhante de resíduos positivos e negativos.

A importância desse pressuposto se deve ao fato de que muitos dos métodos estatísticos utilizados na regressão linear assumem uma distribuição normal dos resíduos. A distribuição normal não é um requisito essencial para criar a regressão, mas é importante para realizar inferências estatísticas. Os testes t e F são baseados na suposição de normalidade dos resíduos.

Existem várias maneiras de verificar a normalidade dos resíduos. Uma forma comum é através da construção de um gráfico de histograma dos resíduos e compará-lo com a curva de uma distribuição normal. Se os resíduos seguirem aproximadamente uma distribuição normal, o histograma deve apresentar uma forma semelhante à curva de sino.

É importante ressaltar que, em amostras grandes, o pressuposto de normalidade é menos crucial devido ao teorema do limite central, que estabelece que a distribuição amostral da média se aproxima de uma distribuição normal, independentemente da distribuição dos dados originais. No entanto, em amostras pequenas, é mais importante verificar a normalidade dos resíduos.

4. Homoscedasticidade

Homoscedasticidade, também conhecida como homogeneidade da variância dos resíduos, é um pressuposto importante da regressão linear. Significa que a variância dos resíduos é constante em todos os níveis das variáveis independentes. Em outras palavras, não há um padrão sistemático na dispersão dos resíduos em relação aos valores previstos.

A homoscedasticidade é importante porque afeta a precisão e confiabilidade dos coeficientes estimados e dos testes estatísticos associados. Se houver heteroscedasticidade, ou seja, a variância dos resíduos não for constante, os intervalos de confiança e os testes de significância podem ser distorcidos, levando a conclusões incorretas.

Existem várias maneiras de verificar a homoscedasticidade, incluindo a análise visual dos resíduos em relação aos valores previstos ou às variáveis independentes.

Se a homoscedasticidade não for atendida, pode ser necessário realizar transformações nos dados ou usar técnicas de regressão robusta para lidar com esse problema.

5. Autocorrelação (Independência entre as observações)

A autocorrelação é um pressuposto da regressão linear que implica que os resíduos (erros) do modelo não apresentam correlação serial entre si. Isso significa que os resíduos não devem exibir um padrão sistemático de dependência em relação às observações anteriores.

Para verificar o pressuposto da autocorrelação, você pode plotar um gráfico de autocorrelação dos resíduos. Nesse gráfico, o eixo x representa os lags (atrasos) e o eixo y representa os coeficientes de autocorrelação dos resíduos em cada lag. Se os resíduos forem independentes, esperamos que os coeficientes de autocorrelação sejam aproximadamente zero para todos os lags. No entanto, se houver autocorrelação presente, os coeficientes de autocorrelação serão significativamente diferentes de zero em alguns lags.

Um indicativo de autocorrelação positiva é a presença de coeficientes de autocorrelação significativamente positivos em lags positivos, enquanto um indicativo de autocorrelação negativa é a presença de coeficientes de autocorrelação significativamente negativos em lags negativos.

É importante destacar que a interpretação do gráfico de autocorrelação deve levar em consideração o intervalo de confiança dos coeficientes de autocorrelação, para identificar se os valores são estatisticamente significativos ou apenas resultado de flutuações aleatórias.

No gráfico de autocorrelação, os intervalos de confiança geralmente são representados como barras verticais ou sombreados. Os pontos que estão fora desses intervalos podem indicar autocorrelação significativa nos dados.

Se a autocorrelação estiver presente nos resíduos, isso pode indicar que o modelo não captura totalmente a estrutura temporal dos dados ou que há algum fator não considerado afetando as observações. Nesses casos, podem ser necessárias técnicas de modelagem mais avançadas, como modelos de séries temporais, para lidar com a autocorrelação e obter estimativas mais precisas.

6. Multicolinearidade

A multicolinearidade refere-se à presença de alta correlação entre duas ou mais variáveis independentes em um modelo de regressão. Isso pode causar problemas na interpretação dos coeficientes e na precisão das estimativas.

Existem várias maneiras de detectar a multicolinearidade em um modelo de regressão. Algumas das principais são:

  • Matriz de Correlação: Calcula a matriz de correlação entre as variáveis independentes e identifica correlações fortes (próximas a 1 ou -1). Correlações altas indicam a presença de multicolinearidade.
  • Fator de Inflação da Variância (VIF): Calcula o VIF para cada variável independente, que mede a proporção da variância do coeficiente estimado de uma variável que é devida à multicolinearidade com as outras variáveis. Valores de VIF acima de 5 ou 10 são frequentemente considerados indicativos de multicolinearidade.
  • Teste de Tolerância: Calcula a tolerância para cada variável independente, que é o inverso do VIF. Valores de tolerância próximos a zero indicam alta multicolinearidade.
  • Análise de Componentes Principais (PCA): Realiza uma transformação dos dados para criar novas variáveis não correlacionadas, conhecidas como componentes principais. A análise dos componentes principais pode revelar a presença de multicolinearidade.

Se a multicolinearidade for detectada, existem algumas abordagens para lidar com o problema:

  • Remoção de variáveis: Se as variáveis independentes estiverem altamente correlacionadas, pode-se considerar a remoção de uma delas do modelo.
  • Combinação de variáveis: Se as variáveis independentes representam conceitos semelhantes, pode-se combinar essas variáveis em uma única variável representativa.
  • Transformação de variáveis: Pode-se aplicar transformações matemáticas às variáveis independentes para reduzir a multicolinearidade. Exemplos incluem transformação logarítmica ou centralização das variáveis.
  • Regularização: O uso de técnicas de regularização, como a regressão ridge ou a regressão lasso, pode ajudar a reduzir os efeitos da multicolinearidade.

É importante lidar com a multicolinearidade, pois ela pode levar a estimativas instáveis, coeficientes com o sinal oposto ao esperado e dificuldades na interpretação dos resultados. A detecção e a correção adequada da multicolinearidade podem melhorar a qualidade e a confiabilidade do modelo de regressão.

Pontos importantes

A análise de regressão quantifica o relacionamento observado para um grupo específico do que quer que seja que você esteja estudando em um período específico de tempo. Portanto, é importante considerar as limitações temporais e contextuais da análise. Além disso, embora seja possível obter resultados de regressão de forma relativamente fácil nos dias de hoje com o uso de poucas linhas de código, o verdadeiro desafio reside em determinar quais variáveis devem ser consideradas e como realizar essa seleção de maneira adequada.

Por fim, é importante destacar que a análise de regressão não prova que a as variáveis independentes causam um aumento/dimunição na variável dependente. Apenas rejeitamos a hipótese nula de que as variáveis independentes não está associada à variável dependente.Devemos ter em mente que a análise de regressão demonstra apenas uma associação entre as variáveis e não estabelece causalidade. Uma equação linear resultante de um modelo mal elaborado pode produzir uma associação estatisticamente significativa, mesmo quando as variáveis não possuem uma relação real entre si.

Eu espero que o post tenha te ajudado. Se tiver alguma coisa que eu tenha esquecido ou alguma informação incorreta, por favor me avise nos comentários. Agradeço muito por sua atenção. Obrigada e até o próximo post!

--

--