Introdução a Métricas de Perfomance em Classificação
Matriz de Confusão, Precision, Recall, F1 score e Especificidade
Introdução
As métricas de performance em classificação oferecem uma maneira de avaliar quão bem um modelo de aprendizado de máquina está realizando a tarefa de atribuir rótulos ou categorias a instâncias de dados desconhecidas. Nesse artigo iremos ver algumas métricas importantes e que todo cientista de dados deveria saber: precision, recall e especificidade. Além da matriz de confusão, que é de onde todas essas métricas citadas são derivadas.
Matriz de Confusão
Perceba que em um eixo temos o valor predito e no outro os valores reais, cada um com duas possíveis classificações: sim ou não.
Quando o valor predito é sim e o valor real também é sim, temos o chamado verdadeiro positivo. Por outro lado, se o modelo previu não e o valor real é sim, temos o falso negativo. E assim por diante.
Imagine que estamos construindo um modelo de aprendizado de máquina para prever spam em email.
Os resultados seriam “traduzidos” assim:
- Verdadeiro Positivo (VP): você acertou ao prever spam
- Falso Positivo (FP): você errou ao prever spam
- Falso Negativo (FN): você errou ao prever não spam
- Verdadeiro Negativo (VN): você acertou ao prever não spam
Portanto, perceba que no fundo o que buscamos em uma matriz de confusão é a diagonal, que são os acertos. Enquanto os outros valores são considerados erros. Dessa forma:
Precisão e Recall
O precision, ou precisão em português, é dado pela quantidade de verdadeiros positivos divido pelo somatório dos verdadeiros positivos com os falso positivos.
De todos que o modelos disse que seriam positivos, quantos realmente foram?
Para exemplificar, vamos ilustrar:
Vermelho = de todos que o modelos disse que seriam positivos
Verde = quantos realmente foram?
Imagine que temos um resultado de 20% de precision. Isso que dizer que de cada 100 que o modelo disse que seria positivo, o modelo acertou 20 deles. Em outras palavras, quando o modelo faz uma previsão positiva, há uma alta probabilidade de ser um falso positivo.
A sensibilidade, ou recall em inglês, é a proporção de previsões corretas entre as observações positivas reais.
De todos que são positivos, quantos o modelo disse que seriam?
Vermelho = de todos que realmente são positivos
Verde = quantos o modelo disse que seriam?
Imagine que temos um recall de 25%. Isso quer dizer que de cada 100 que realmente são positivos, o meu modelo disse que somente 25 são positivos. Ou seja, ele está perdendo 75% dos verdadeiros positivos, o que indica que o modelo não está identificando positivos tão eficientemente quanto deveria.
Diferenças
Perceba que apesar de parecer confusa e semelhantes, as métricas são diferentes.
O precision olha as observações que realmente são positivas e o recall olha o que o modelo previu de positivo.
Imagine que você criou um modelo para prever inadimplência e seu chefe não quer de jeito nenhum que o modelo libere crédito para uma pessoa que provavelmente não irá pagar.
Nesse caso, é importante focar no precision.
Por outro lado, seria mais interessante focar no recall se você estiver construindo um modelo para prever se uma pessoa está doente. Visto que se a pessoa estiver positiva, é crucial que o modelo identifique, mesmo que isso custe outros erros como acusar como doente alguém saudável.
Sempre fique atento ao trade-off!
O modelo perfeito…
Idealmente, o modelo perfeito 100% de precision e 100% de recall. Mas isso dificilmente acontece. Geralmente, quando aumentamos o precision, o recall diminui, e vice-versa.
F1 Score
Procurando diminuir esse problema de trade-off entre precision e recall, surge uma nova métrica.
O F1 Score é utilizado para balancear o peso das duas métricas anteriores.
Na prática, o F1 score é pouco utilizado. Cientistas de dados preferem maximizar o precision e recall individualmente.
Especificidade
Também chamada de True Negative Rate, a especificidade é dada pela quantidade de verdadeiro negativo divido pela soma dos falsos positivos com os verdadeiros negativos.
De todos que realmente foram negativo, quantos meu modelo disse que seriam?
Vermelho = de todos que realmente foram negativos
Verde = quantos meu modelo disse que seriam?
Conclusão
Nesse pequeno artigo, introduzimos algumas métricas de perfomance em classificação.
É crucial para um cientista de dados entender todas elas.
Não existe a melhor métrica, devemos entender o problema e aplicar a que melhor se aplica e saber que sempre haverá um trade-off.
Links e referências
Para se conectar comigo, acesse meu LinkedIn.