Regressão Logística: Uma Visão Geral

Natalia Gonçalves
9 min readJul 16, 2023
Fonte: https://www.statstest.com/simple-logistic-regression/

O que é a Regressão Logística?

A regressão logística é tanto um método estatístico quanto um algoritmo de machine learning com finalidades preditivas. Isso permite que seja aplicada em diferentes áreas, tanto como um método estatístico tradicional, utilizando princípios estatísticos e inferenciais, quanto como um modelo de aprendizado de máquina, aplicando as técnicas e algoritmos de otimização para obter previsões precisas e escaláveis.

Ela é utilizada para prever e modelar a probabilidade de ocorrência de um evento binário, como “sim” ou “não”, “passou” ou “não passou”, “doente” ou “não doente”, com base em variáveis explicativas ou preditoras. Ao contrário da regressão linear, que se concentra na previsão de valores contínuos, a regressão logística é especialmente adequada para lidar com variáveis de resposta categóricas.

A regressão logística tem uma ampla aplicação em diversas áreas, como medicina, ciências sociais, marketing e finanças, permitindo a previsão e compreensão de eventos binários com base em variáveis explicativas. Ela fornece uma ferramenta valiosa para a tomada de decisões e a identificação de fatores importantes que influenciam a ocorrência de um evento específico.

Como a Regressão Logística faz previsões?

Vamos olhar para um exemplo para tentar entender melhor. Imagine que você tenha alguns dados sobre estudantes e queira prever se um estudante vai passar ou falhar em um exame com base no tempo de estudo. Na regressão logística, partimos do pressuposto de que há uma relação linear entre o tempo de estudo (X) e o log-odds (logit) de passar no exame.

A relação linear é representada da seguinte forma:

Nesta equação,

  • P representa a probabilidade de passar no exame,
  • P / (1-P) representa a probabilidade de passar no exame em relação à probabilidade de não passar no exame,
  • log(P / (1-P)) representa o log-odds (logaritmo da razão de chances) de passar no exame,
  • X representa o tempo de estudo,
  • β0 é o intercepto (termo constante),
  • β1 é o coeficiente associado ao tempo de estudo. Este coeficiente nos diz o quanto o tempo de estudo influencia o resultado (passar ou falhar no exame).

Agora, precisamos de uma forma de converter os log-odds em probabilidades. Queremos que as probabilidades previstas estejam entre 0 e 1, pois lidamos com um resultado binário (passar ou falhar). É aqui que entra em jogo a função sigmoid, representada como σ(z), que transforma o logit (z) em uma probabilidade (p):

No caso da regressão logística, o logit (z) é a combinação linear do intercepto e do coeficiente multiplicado pelo tempo de estudo (X):

Ao substituirmos isso na função sigmoid, obtemos a probabilidade prevista (p) de passar no exame com base no tempo de estudo (X).

Quando os valores de z forem negativos (z → -∞), e^(-z) vai tender a + ∞, resultando em uma probabilidade próxima de 0.

Exemplo: Vamos aplicar a fórmula da função sigmoidal para z = -1:

σ(-1) = 1 / (1 + e^(-(-1)))

= 1 / (1 + e^(1))

≈ 1 / (1 + 2.71828^(1))

≈ 1 / (1 + 2.71828)

≈ 1 / 3.71828

≈ 0.269

Por outro lado, quando os valores de z forem positivos (z → +∞), e^(-z) vai tender a 0, resultando em uma probabilidade próxima de 1.

Agora vamos aplicar a fórmula da função sigmoidal para z = 1:

σ(1) = 1 / (1 + e^(-1))

≈ 1 / (1 + 2.71828^(-1))

≈ 1 / (1 + 0.36788)

≈ 1 / 1.36788

≈ 0.731

Essa propriedade da função permite que interpretemos a saída da função sigmoidal como probabilidades, onde valores próximos de 0 indicam uma baixa probabilidade de ocorrência do evento e valores próximos de 1 indicam uma alta probabilidade de ocorrência do evento.

Para classificar as probabilidades previstas como passar ou falhar, podemos definir um limite (por exemplo, 0,5). Se a probabilidade prevista estiver acima do limite, classificamos como passar; caso contrário, classificamos como falhar.

Em resumo, a regressão logística utiliza uma relação linear entre os preditores (como tempo de estudo) e os log-odds de um evento (passar no exame). A função sigmoid é então aplicada para converter os log-odds em probabilidades, permitindo interpretar a saída e fazer previsões com base nas variáveis de entrada fornecidas.

Fonte: Data Hacker, 005 PyTorch — Logistic Regression in PyTorch

Treinamento do modelo

O objetivo do treinamento é ajustar os coeficientes do modelo para minimizar a função custo, ou seja, encontrar os coeficientes que tornem as previsões do modelo o mais próximas possível das probabilidades reais. Isso é feito usando algoritmos de otimização, como o gradiente descendente, para encontrar os valores ideais dos coeficientes que minimizem a função custo.

A função custo mais comumente usada na regressão logística é a função de log loss, também conhecida como entropia cruzada binária. Essa função penaliza previsões erradas de forma mais intensa, atribuindo um custo maior quando a previsão está longe do valor real.

A fórmula da função de log loss é:

Nesta fórmula, J(θ) representa a função custo, θ são os coeficientes do modelo, y é o valor real da variável dependente (0 ou 1) e p é a probabilidade prevista pelo modelo de que o evento ocorra.

  • Quando y = 1, a primeira parte da equação é ativada, e o termo y * log(p) penaliza fortemente as previsões próximas a 0, ou seja, quando o modelo prevê uma baixa probabilidade para uma instância que deveria ser classificada como 1. O log(p) se aproxima de 0 quando p se aproxima de 0, aumentando o custo.
  • Quando y = 0, a segunda parte da equação é ativada, e o termo (1 — y) * log(1 — p) penaliza fortemente as previsões próximas a 1, ou seja, quando o modelo prevê uma alta probabilidade para uma instância que deveria ser classificada como 0. O log(1 — p) se aproxima de 0 quando p se aproxima de 1, aumentando o custo.

Em resumo, a função de log loss penaliza fortemente as previsões incorretas, atribuindo um custo maior quando o modelo prevê uma probabilidade distante do valor real da classe. Isso incentiva o modelo a ajustar os coeficientes de forma a produzir probabilidades mais próximas das classes reais, melhorando o desempenho da regressão logística.

Interpretação dos resultados

A regressão logística oferece a vantagem de poder ser usada tanto como um modelo preditivo quanto como uma ferramenta para análise inferencial. Além de fazer previsões precisas, a regressão logística permite a seleção de variáveis relevantes e a interpretação dos coeficientes.

Na análise preditiva, o foco está na capacidade do modelo de fazer previsões precisas sobre a probabilidade de ocorrência do evento de interesse com base nas variáveis preditoras. Avaliamos a performance do modelo por meio de métricas de avaliação, como acurácia, AUC-ROC ou F1-score. Nesse contexto, podemos utilizar a regressão logística para construir um modelo que maximize a capacidade de previsão.

Por outro lado, a regressão logística também nos permite realizar análises inferenciais, onde o objetivo é entender a relação entre as variáveis preditoras e a variável dependente e fazer inferências sobre essa relação. Ao ajustar um modelo de regressão logística, cada variável preditora é associada a um coeficiente. Esses coeficientes indicam o quanto a variável preditora contribui para a mudança nos log-odds da variável dependente (evento de interesse).

Considere o resultado abaixo de um modelo que visa determinar se um aluno foi admitido em uma universidade com base nos resultados dos seus exames. Vamos interpretar os coeficientes:

  1. Coeficiente “const”: -69.9128
  • Esse coeficiente representa o log-odds de um aluno ser admitido na universidade quando o valor da variável “SAT” (pontuação nos exames) é igual a zero.
  • Um valor negativo indica que as chances de admissão são muito baixas quando o aluno não obteve uma pontuação nos exames.

2. Coeficiente “SAT”: 0.0420

  • Esse coeficiente representa como a pontuação nos exames (variável “SAT”) influencia o log-odds de admissão.
  • O coeficiente de 0,0420 representa a mudança no log-odds de admissão para um aumento de uma unidade na variável “SAT”.

Observe que o log odds, por si só, não fornece uma interpretação intuitiva ou direta do efeito de um preditor sobre o resultado da regressão logística. O log odds (logit) é a transformação logarítmica da razão de chances (odds ratio) e é usado para linearizar a relação entre as variáveis preditoras e o log das chances da variável de resultado. Para encontrar a razão de chances, precisamos calcular a exponencial do coeficiente. A razão de chances (RC) para a variável “SAT” é dada por:

RC = exp(0,0420)

Isso é aproximadamente igual a 1,0434.

  • A razão de chances de aproximadamente 1,0434 significa que para cada aumento de uma unidade na variável “SAT”, as chances de admissão aumentam em aproximadamente 4,34% (100 * (1,0434–1)).

Além disso, a análise inferencial nos permite testar a significância estatística dos coeficientes e realizar testes de hipóteses. Por exemplo, podemos testar a hipótese de que um coeficiente é igual a zero, o que sugere que a variável preditora não tem impacto significativo na probabilidade do evento de interesse. No exemplo acima, temos os seguintes coeficientes:

  • Coeficiente “const”: -69.9128
  • Coeficiente “SAT”: 0.0420

Para testar a significância estatística desses coeficientes, podemos verificar os valores de z e os valores-p associados. O valor “z” indica a estatística z, que é calculada como a razão entre o coeficiente estimado e seu erro padrão. No caso do coeficiente “const”, o valor de z é -4.443 e o valor-p é 0.000, o que indica que ele é estatisticamente significativo. O mesmo ocorre para o coeficiente “SAT”, com um valor de z de 4.454 e um valor-p de 0.000.

Isso significa que há uma relação estatisticamente significativa entre a variável preditora (pontuação SAT) e a variável dependente (admissão na universidade). O coeficiente “const” indica o efeito do termo constante ou intercepto no modelo, enquanto o coeficiente “SAT” indica o efeito da pontuação SAT na probabilidade de admissão.

Além dos testes de significância, também podemos calcular intervalos de confiança para estimar a faixa de valores prováveis dos coeficientes. No caso dos coeficientes apresentados, podemos calcular intervalos de confiança de 95%. Para o coeficiente “const”, o intervalo de confiança fica entre -100.756 e -39.070, enquanto para o coeficiente “SAT” o intervalo de confiança fica entre 0.024 e 0.060.

É importante ressaltar que a interpretação dos coeficientes deve ser feita em conjunto com uma análise cuidadosa dos pressupostos e da significância estatística do modelo.

Dessa forma, a regressão logística não apenas nos permite fazer previsões, mas também é uma ferramenta poderosa para seleção de variáveis relevantes e interpretação dos resultados. Ela nos fornece insights sobre os fatores que influenciam a ocorrência do evento de interesse e permite que façamos inferências sobre a relação entre as variáveis. Essa flexibilidade torna a regressão logística uma escolha valiosa tanto para análise preditiva quanto para análise inferencial.

Chegamos ao final do post hoje! Eu espero que o post tenha te ajudado. Se tiver alguma coisa que eu tenha esquecido ou alguma informação incorreta, por favor me avise nos comentários. Agradeço muito por sua atenção. Obrigada e até o próximo post!

--

--