Entenda o que é AUC e ROC nos modelos de Machine Learning

As curvas AUC e ROC estão entre as métricas mais utilizadas para a avaliação de um modelo de Machine Learning.

A curva AUC é derivada da curva ROC, então vamos inicialmente entender a curva ROC, que significa “Receiver Operating Characteristic”.

ROC

A curva ROC mostra o quão bom o modelo criado pode distinguir entre duas coisas (já que é utilizado para classificação). Essas duas coisas podem ser 0 ou 1, ou positivo e negativo. Os melhores modelos conseguem distinguir com precisão o binômio.

O ROC possui dois parâmetros:

  • Taxa de verdadeiro positivo (True Positive Rate), que é dado por true positives / (true positives + false negatives)
  • Taxa de falso positivo (False Positive Rate), que é dado por false positives / (false positives + true negatives)

Uma curva ROC traça “True Positive Rate vs. False Positive Rate” em diferentes limiares de classificação (veja figura abaixo).

Assim, na tentativa de simplificar a análise da ROC, a AUC (“area under the ROC curve”) nada mais é que uma maneira de resumir a curva ROC em um único valor, agregando todos os limiares da ROC, calculando a “área sob a curva”.

AUC

O valor do AUC varia de 0,0 até 1,0 e o limiar entre a classe é 0,5. Ou seja, acima desse limite, o algoritmo classifica em uma classe e abaixo na outra classe.

Quanto maior o AUC, melhor.

Um exemplo da ROC/AUC. Referência da imagem.

Um modelo cujas previsões estão 100% erradas tem uma AUC de 0, enquanto um modelo cujas previsões são 100% corretas tem uma AUC de 1. Cada modelo apresentará um valor de AUC, o que irá te auxiliar na escolha do melhor, como na figura abaixo:

Referência da figura.

O interessante do AUC é que a métrica é invariante em escala, uma vez que trabalha com precisão das classificações ao invés de seus valores absolutos. Além disso, também mede a qualidade das previsões do modelo, independentemente do limiar de classificação.

Abraços


Visite nosso site ou mande um e-mail para viniciusbrbio@gmail.com. Você também pode me encontrar no Twitter. Se preferir, poderá adicionar o feed do blog.

bio-data-blog

Bioestatística e Data Science

Vinícius Rodrigues

Written by

https://viniciusbrodrigues.github.io/

bio-data-blog

Bioestatística e Data Science

More From Medium

More on R from bio-data-blog

More on R from bio-data-blog

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade