Como avaliar seu modelo de regressão

As principais métricas para avaliar seus modelos de regressão

Felipe Azank
Turing Talks
9 min readAug 3, 2020

--

Introdução

Imagine que você, preocupado com os casos de dengue endêmicos na sua cidade e região, decide montar um modelo que prevê o número de casos dessa doença em cada semana, de forma a auxiliar o sistema de saúde na estratégia de prevenção.

Agora pense na situação em que você, como estagiário de uma startup do setor imobiliário, foi designado para criar um modelo para precificar apartamentos em São Paulo com base na área, localização, número de banheiros e proximidade de centros comerciais.

Como você avaliaria se estes modelos estão bons ou ruins? Você usaria a mesma métrica para os dois modelos? O que seria pior? Termos poucos resultados muito discrepantes ou muitos resultados com poucas discrepâncias? Esse Turing Talks tem como objetivo elucidar essas dúvidas, apresentando as principais métricas, suas aplicações e benefícios.

Em específico, vamos seguir a seguinte estrutura:

  1. Montagem de um modelo de regressão simples
  2. R-Quadrado
  3. R-Quadrado Ajustado
  4. MSE
  5. RMSE
  6. MAE
  7. MAPE
  8. RMSLE
  9. Considerações finais acerca delas

Montagem de um modelo de regressão simples

from xkcd.com

As métricas vistas em nosso último post sobre avaliação de modelos tratam-se de ferramentas para avaliar problemas de classificação, casos em que deve-se prever a categoria de um data point desconhecido. Contudo, uma tarefa também muito recorrente na área de Ciência de Dados consiste em produzir modelos de regressão, no qual é predito uma variável numérica contínua. Veremos agora as principais métricas utilizadas para avaliar a performance de regressões.

Para que isso ocorra, partimos de um exemplo em que criamos uma regressão linear multivariável bem simples para prever o preço de determinadas casas em Boston, partindo de parâmetros simples como número de quartos, criminalidade na região e distância de centros comerciais famosos. (O dataset e a descrição detalhada de suas features podem ser encontrados aqui)

Métricas de Avaliação

R-Quadrado

Muito utilizada em modelos de regressões da área de finanças, o R-Quadrado, ou Coeficiente de Determinação, é uma métrica que visa expressar a quantidade da variança dos dados que é explicada pelo modelo construído. Em outras palavras, essa medida calcula qual a porcentagem da variança que pôde ser prevista pelo modelo de regressão e, portanto, nos diz o quão “próximo” as medidas reais estão do nosso modelo.

O valor do seu R-Quadrado varia de 0 a 1 e geralmente é representado em porcentagem. Por exemplo, um R² = 75% nos diz que 75% da variância de nossos dados podem ser explicados pelo modelo construído, enquanto os outros 25%, teoricamente, se tratariam de uma variância residual.

Podemos ver a fórmula dessa medida abaixo, na qual ŷ representa o valor predito, y_barra representa o valor médio das amostras e y representa o valor real.

Exemplos de cálculos do R²

Na imagem acima, podemos ver que se o modelo (reta) não se distancia muito dos dados, temos um valor de R-Quadrado alto (gráfico 1), em contraste com o gráfico 2.

Vantagens e Desvantagens

Essa métrica, apesar de conseguir identificar algumas relações lineares entre o modelo de regressão e os dados, apresenta uma série de desvantagens e limitações, entre elas:

  • O R-Quadrado é, por definição, enviesado. Isso ocorre uma vez que os otimizadores dos algoritmos de regressão utilizam da correlação dos dados forma a incrementar o valor do R-Quadrado injustamente, o que causa um aumento sistemático desse valor conforme novas medidas são adicionadas;
  • Só pode ser aplicada perfeitamente em modelos univariados (com apenas uma variável de entrada, geralmente denominada como X);
  • Em casos de Overfitting, o valor dessa métrica continua alta;
  • Devido ao ponto explicitado acima, apenas o R-Quadrado não consegue indicar se um modelo de regressão é eficiente ou não, o que não nos dá segurança alguma sobre o modelo desenvolvido;

Aplicações

Mesmo sem possuir um potencial grande em avaliações de modelos de regressão, o R-Quadrado continua sendo uma métrica muito importante para análises estatísticas tanto no âmbito profissional, quanto no acadêmico. No setor financeiro, o R-Quadrado costuma ser utilizado para identificar o quão relacionada a performance de um portfólio está quando comparada com um Benchmark determinado.

OBS: Apesar de relacionados, o R-Quadrado não é o valor Beta popularmente conhecido na área de finanças. Se quiser se aprofundar no assunto, veja aqui.

Código do R-Quadrado

R-Quadrado Ajustado

Tendo em vista as inúmeras desvantagens acerca do R-Quadrado, foi necessário desenvolver uma alternativa mais versátil e que não trouxesse um viés em suas medidas, assim foi criado o R-Quadrado Ajustado.

Partindo do mesmo princípio do R-Quadrado, essa métrica busca representar a porcentagem da variança que pode ser contemplada pelo modelo de regressão. Entretanto, esse valor não demonstra um viés devido ao acréscimo de dados ou features no modelo, como ocorria com o Coeficiente de Determinação. Isso se deve pelo fato de penalizarmos (reduzirmos) o valor caso uma feature presente não contribua significativamente para o modelo, o que pode ser entendido analisando a fórmula.

Em que N representa o número de amostras, enquanto p representa o número de features (dados de entrada do modelo). Podemos perceber que, quanto mais features utilizadas sem aumentar significativamente o valor de R², menor será nosso R-Quadrado Ajustado, o que nos garante uma medida menos enviesada e sempre menor do que o R-Quadrado.

Vantagens e Desvantagens

Por compreender a entrada de mais variáveis, o R-Quadrado Ajustado transpõe algumas desvantagens do R-Quadrado

  • Pode ser usado para avaliar modelos com mais precisão e segurança
  • É aplicável na avaliação de modelos com mais de uma variável independente (feature)
  • Não apresenta um viés dependente dos dados inseridos

Aplicações

Mesmo apresentando esse novo ajuste, as métricas até agora apresentadas costumam serem mais utilizadas para avaliar relações e modelos mais simples e, em grande maioria, lineares. Isso ocorre uma vez que essas medidas são calculadas partindo de princípios não totalmente verdadeiros (como a ideia de que o erro total entre os dados reais e os valores preditos são dados pela soma do erro total e de um erro “residual”).

Código do R-Quadrado Ajustado

Perceba que o valor do R-Quadrado Ajustado é sempre menor

Erro Quadrático Médio (MSE)

Métrica mais utilizada, o Erro Quadrático Médio consiste na média do erro das previsões ao quadrado. Em outras palavras, pega-se a diferença entre o valor predito pelo modelo e o valor real, eleva-se o resultado ao quadrado, faz-se a mesma coisa com todos os outros pontos, soma-os, e dividi-se pelo número de elementos preditos. Quanto maior esse número, pior o modelo.

Essa métrica apresenta valor mínimo 0, sem valor máximo, e pode ser descrito pela fórmula a seguir:

Vantagens e Desvantagens

Uma vez que essa métrica eleva o erro ao quadrado, predições muito distantes do real aumentam o valor da medida muito facilmente, o que a torna uma métrica de avaliação excelente para problemas nos quais grandes erros não são tolerados, como é o caso de exames médicos e projeções de preços.

Entretanto, um ponto negativo do uso dessa métrica é sua falta de interpretabilidade direta, uma vez que, para a predição de valores de unidade u, a unidade do MSE seria u².

Código do MSE

Raiz do erro quadrático médio (RMSE)

Tendo em vista essa diferença de unidades, o RMSE entra como uma forma de melhorar a interpretabilidade da métrica, acertando a unidade. Entretanto, essa medida, assim como o MSE, penaliza predições muito distantes da real.

Código do RMSE

Erro Absoluto Médio (MAE)

O Erro Absoluto Médio consiste na média das distâncias entre valores preditos e reais. Diferentemente do MSE e do RMSE, essa métrica não “pune” tão severamente os outliers do modelo.

Essa medida apresenta valor mínimo 0 e não apresenta valor máximo:

Vantagens e Desvantagens

Pelo fato de não elevar as diferenças ao quadrado, essa medida torna-se uma opção não tão ideal para lidar com problemas delicados. Contudo, é uma métrica sólida para modelos que devem prever muitos dados ou dados sazonais, como em previsões de números de casos de doenças, nas quais prever a tendência e sazonalidade dos números é mais importante do que os valores absolutos de cada dia.

Outro ponto positivo que pode ser destacado, e que também o difere do MSE, seria sua interpretação mais intuitiva, com a mesma unidade dos valores trabalhados.

Código do MAE

Erro Percentual Absoluto Médio (MAPE)

Em contraste com as métricas anteriores, essa medida exprime uma porcentagem, obtida através da divisão da diferença entre predito (ŷ) e real pelo valor real (y).

Assim como o MSE e o MAE, quanto menor o valor, mais preciso seria o modelo de regressão.

Vantagens e Desvantagens

Por se tratar de uma porcentagem, essa métrica torna-se extremamente intuitiva, tanto para a interpretação do programador, quanto para a comunicação de resultados com pessoas sem conhecimento técnico. Por exemplo, ter um MAPE=12% significa que, em média, nosso modelo faz previsões que erram por 12% do valor real.

Devido a sua formulação, essa métrica não lida tão bem se tratando de problemas com um grande alcance de números, como uma regressão que prevê uma variável que vai e 10 a 20.000

Código do MAPE

Raiz do erro médio quadrático e logarítmico (RMSLE)

Essa métrica, apesar de apresentar uma fórmula um pouco mais extensa, realiza um cálculo similar ao do RMSE. Contudo, a aplicação de logaritmos se dá no objetivo de evitar a penalização de diferenças elevadas entre valor predito e real quando ambos os valores são muito grandes.

Vantagens e Desvantagens

Como resultado das diferenças entre o RMSLE e o RMSE, teremos os seguintes fenômenos :

  • Se o valor predito e o real forem valores pequenos → RMSLE=RMSE (aproximadamente)
  • Se apenas um dos dois é grande →RMSE>RMSLE
  • Se ambos os valores são grandes → RMSE>RMSLE

Código do RMSLE

Considerações Finais

Tendo em vista as métricas mostradas acima, podemos extrair alguns discernimentos.

  • Não há métrica certa ou errada, apenas temos uma ideia da métrica que melhor atende ao seu problema e que te permite extrair mais informações sobre o modelo construído
  • É possível utilizarmos mais de uma métrica, isso nos permite identificar falhas específicas em nosso modelo
  • Você pode construir sua própria métrica de avaliação se acredita que esta é mais adequada para avaliar seu modelo (por exemplo, se for de interesse a penalização de predições que geram valores menores em grau diferente de predições que geram valores menores que os reais). Para criar sua própria métrica, basta seguir o exemplo do cálculo do MAPE

Conclusão

Ufa! Após uma longa jornada por diversas métricas de avaliação, chegamos ao fim de mais um Turing Talks! Esperamos que vocês tenham gostado do texto! Se quiserem conhecer um pouco mais sobre o que fazemos no Grupo Turing, não deixem de seguir as nossas redes sociais: Facebook, Instagram, LinkedIn e, claro, acompanhar nossos posts no Medium. Para acompanhar também um pouco de nosso projetos, acesse nosso GitHub.

Até a próxima.

--

--

Felipe Azank
Turing Talks

Data Science — Turing USP, Computer Science and Engineering Politecnico di Milano, Engenharia Mecatrônica POLI-USP