Introdução a Métricas de Perfomance em Classificação

Matriz de Confusão, Precision, Recall, F1 score e Especificidade

Gustavo Candido
5 min readJan 5, 2024
Photo by Jeremy Bishop on Unsplash

Introdução

As métricas de performance em classificação oferecem uma maneira de avaliar quão bem um modelo de aprendizado de máquina está realizando a tarefa de atribuir rótulos ou categorias a instâncias de dados desconhecidas. Nesse artigo iremos ver algumas métricas importantes e que todo cientista de dados deveria saber: precision, recall e especificidade. Além da matriz de confusão, que é de onde todas essas métricas citadas são derivadas.

Matriz de Confusão

Matriz de Confusão

Perceba que em um eixo temos o valor predito e no outro os valores reais, cada um com duas possíveis classificações: sim ou não.

Quando o valor predito é sim e o valor real também é sim, temos o chamado verdadeiro positivo. Por outro lado, se o modelo previu não e o valor real é sim, temos o falso negativo. E assim por diante.

Imagine que estamos construindo um modelo de aprendizado de máquina para prever spam em email.

Os resultados seriam “traduzidos” assim:

  • Verdadeiro Positivo (VP): você acertou ao prever spam
  • Falso Positivo (FP): você errou ao prever spam
  • Falso Negativo (FN): você errou ao prever não spam
  • Verdadeiro Negativo (VN): você acertou ao prever não spam

Portanto, perceba que no fundo o que buscamos em uma matriz de confusão é a diagonal, que são os acertos. Enquanto os outros valores são considerados erros. Dessa forma:

A diagonal (verde) representa os acertos. Enquanto as outras instâncias são os erros.

Precisão e Recall

O precision, ou precisão em português, é dado pela quantidade de verdadeiros positivos divido pelo somatório dos verdadeiros positivos com os falso positivos.

Fórmula do Precision

De todos que o modelos disse que seriam positivos, quantos realmente foram?

Para exemplificar, vamos ilustrar:

Vermelho = de todos que o modelos disse que seriam positivos

Verde = quantos realmente foram?

Imagine que temos um resultado de 20% de precision. Isso que dizer que de cada 100 que o modelo disse que seria positivo, o modelo acertou 20 deles. Em outras palavras, quando o modelo faz uma previsão positiva, há uma alta probabilidade de ser um falso positivo.

A sensibilidade, ou recall em inglês, é a proporção de previsões corretas entre as observações positivas reais.

Fórmula do Recall

De todos que são positivos, quantos o modelo disse que seriam?

Vermelho = de todos que realmente são positivos

Verde = quantos o modelo disse que seriam?

Imagine que temos um recall de 25%. Isso quer dizer que de cada 100 que realmente são positivos, o meu modelo disse que somente 25 são positivos. Ou seja, ele está perdendo 75% dos verdadeiros positivos, o que indica que o modelo não está identificando positivos tão eficientemente quanto deveria.

Diferenças

Perceba que apesar de parecer confusa e semelhantes, as métricas são diferentes.

O precision olha as observações que realmente são positivas e o recall olha o que o modelo previu de positivo.

Imagine que você criou um modelo para prever inadimplência e seu chefe não quer de jeito nenhum que o modelo libere crédito para uma pessoa que provavelmente não irá pagar.

Nesse caso, é importante focar no precision.

Por outro lado, seria mais interessante focar no recall se você estiver construindo um modelo para prever se uma pessoa está doente. Visto que se a pessoa estiver positiva, é crucial que o modelo identifique, mesmo que isso custe outros erros como acusar como doente alguém saudável.

Sempre fique atento ao trade-off!

O modelo perfeito…

Idealmente, o modelo perfeito 100% de precision e 100% de recall. Mas isso dificilmente acontece. Geralmente, quando aumentamos o precision, o recall diminui, e vice-versa.

F1 Score

Procurando diminuir esse problema de trade-off entre precision e recall, surge uma nova métrica.

O F1 Score é utilizado para balancear o peso das duas métricas anteriores.

Fórmula do F1 Score

Na prática, o F1 score é pouco utilizado. Cientistas de dados preferem maximizar o precision e recall individualmente.

Especificidade

Também chamada de True Negative Rate, a especificidade é dada pela quantidade de verdadeiro negativo divido pela soma dos falsos positivos com os verdadeiros negativos.

Fórmula da Especificidade

De todos que realmente foram negativo, quantos meu modelo disse que seriam?

Vermelho = de todos que realmente foram negativos

Verde = quantos meu modelo disse que seriam?

Conclusão

Nesse pequeno artigo, introduzimos algumas métricas de perfomance em classificação.

É crucial para um cientista de dados entender todas elas.

Não existe a melhor métrica, devemos entender o problema e aplicar a que melhor se aplica e saber que sempre haverá um trade-off.

Links e referências

Preditiva AI

Para se conectar comigo, acesse meu LinkedIn.

--

--

Gustavo Candido
Gustavo Candido

Written by Gustavo Candido

Estudante de Sistemas de Informação na ESPM - SP. Alguém interessado em ciência de dados, computação e matemática.