Entenda o que é AUC e ROC nos modelos de Machine Learning

Vinícius Rodrigues
bio-data-blog
Published in
2 min readOct 26, 2018

As curvas AUC e ROC estão entre as métricas mais utilizadas para a avaliação de um modelo de Machine Learning.

A curva AUC é derivada da curva ROC, então vamos inicialmente entender a curva ROC, que significa “Receiver Operating Characteristic”.

ROC

A curva ROC mostra o quão bom o modelo criado pode distinguir entre duas coisas (já que é utilizado para classificação). Essas duas coisas podem ser 1 ou 0, ou positivo e negativo. Os melhores modelos conseguem distinguir com precisão esse binômio.

O ROC possui dois parâmetros:

  • Taxa de verdadeiro positivo (True Positive Rate), que é dado por true positives / (true positives + false negatives)
  • Taxa de falso positivo (False Positive Rate), que é dado por false positives / (false positives + true negatives)

Uma curva ROC traça “True Positive Rate vs. False Positive Rate” em diferentes limiares de classificação (veja figura abaixo).

Assim, na tentativa de simplificar a análise da ROC, a AUC (“area under the ROC curve”) nada mais é que uma maneira de resumir a curva ROC em um único valor, agregando todos os limiares da ROC, calculando a “área sob a curva”.

AUC

O valor do AUC varia de 0,0 até 1,0 e o limiar entre a classe é 0,5. Ou seja, acima desse limite, o algoritmo classifica em uma classe e abaixo na outra classe.

Quanto maior o AUC, melhor.

Um exemplo da ROC/AUC. Referência da imagem.

Um modelo cujas previsões estão 100% erradas tem uma AUC de 0, enquanto um modelo cujas previsões são 100% corretas tem uma AUC de 1. Cada modelo apresentará um valor de AUC, o que irá te auxiliar na escolha do melhor, como na figura abaixo:

Referência da figura.

Edit: Se quiser mais opções visuais pra estudar e entender, recomendo o post do MLU-Explain (em inglês).

O interessante do AUC é que a métrica é invariante em escala, uma vez que trabalha com precisão das classificações ao invés de seus valores absolutos. Além disso, também mede a qualidade das previsões do modelo, independentemente do limiar de classificação.

Abraços

Dúvidas? Visite nosso site ou mande um e-mail para viniciusbrbio@gmail.com

--

--