Como avaliar um modelo de Machine Learning para classificação?

Daniele Santiago
4 min readAug 29, 2023

--

A classificação em Machine Learning e Estatística é uma técnica de aprendizado supervisionado na qual um modelo preditivo atribui um rótulo de classe a uma determinada instância. Neste artigo, serão apresentadas algumas métricas de avaliação utilizadas em problemas de classificação.

Alguns exemplos de problemas de classificação envolvem:

  1. Dado um email, classificar se é spam ou não;
  2. Dado um laudo, classificar se há doença ou não;
  3. Dada uma transação, classificar se há fraude ou não.

De uma perspectiva do modelo, a classificação exige um dataset com vários exemplos de entradas e saídas, no qual o mesmo irá aprender.

As métricas de avaliação são usadas para avaliar e guiar o aprendizado do algoritmo. Dado os exemplos acima, precisamos ter a segurança de que o modelo irá ter um bom desempenho ao prever novos dados. A métrica mais comum utilizada para classificar de forma geral é a acurácia. Contudo, esta não é uma métrica adequada se os dados forem desbalanceados, já que a classe menor tem menor efeito na acurácia comparada com a classe prevalecente. Logo, a métrica adequada dependerá do escopo do problema.

Acurácia

A acurácia mostra a porcentagem de acertos do modelo. Como mencionado, ela não é tão interessante ao utilizar dados balanceados e pode levar a conclusões equivocadas.

Acurácia = Número de previsões corretas / Número total de previsões

Matriz de confusão

Figura 1 — Matriz de confusão

A matriz de confusão é uma tabela que contastará diversos tipos de erros. Ela é interessante para se ter uma visão mais global do modelo. Em um contexto de predição de fraudes, por exemplo, deve-se prestar atenção à quantidade de fraudes positivas que foram classificadas como negativas e vice-versa, no qual essa métrica se encaixa de maneira eficaz.

Tipos de erros

  • Verdadeiro positivo (true positive — TP): Por exemplo, quando não há fraude e o modelo classifica como não há fraude.
  • Falso positivo (false positive — FP): Por exemplo, quando não há fraude e o modelo classifica como há fraude.
  • Falso negativo (true negative — TN): Por exemplo, quando há fraude e o modelo classifica como não há fraude.
  • Verdadeiro negativo (false negative — FN): Por exemplo, quando há fraude e o modelo classifica como há fraude.

Precision

A precisão de um classificador é a porcentagem de predições positivas que estão corretas. O valor será no máximo 1 quando não houver falsos negativos.

Precision = True Positive / (True Positive + False Positive)

Recall

O recall é a porcentagem de verdadeiros positivos que foram corretamente detectadas pelo classificador. É uma métrica interessante quando há desbalanceamento e se quer valorizar a classe minoritária.

Recall = True Positive / (True Positive + False Negative)

F-measure

O F-measure é definido como a média harmônica entre recall e precision. Uma média harmônica alta significa valores altos para ambos, precisão e recall.

F-measure = (2 * recall * precision)/(recall + precision)

Sensibilidade, Especificidade e Média Geométrica

Essas medidas são utilizadas quando o desempenho de ambas as classes é considerado alto e esperado simultaneamente. A métrica de média geométrica foi sugerida em (Kubat e Matwin, 1997) e tem sido usada por vários pesquisadores para avaliar classificadores em conjuntos de dados desbalanceados (Nguyen, G. Hoang et al, 2009).

G-mean indica o equilíbrio entre o desempenho da classificação na classe majoritária e minoritária e leva em consideração tanto a sensibilidade quanto a especificidade.

Sensibilidade = recall

Especificidade = 1 — (False Positive/ (False Negative + True Negative))

G-means = √sensibilidade * especificidade

ROC e AUC

A característica operacional do receptor (ROC) e a área sob a curva ROC (AUC) são as duas medidas mais comuns para avaliar o desempenho geral do classificador (Weiss, 2004).

O ROC é um gráfico que mostra a relação entre a taxa de verdadeiros positivos e a taxa de falsos positivos. Dá uma indicação visual se um classificador é superior a outro classificador em uma ampla gama de pontos de operação. A área sob a curva ROC (AUC) é empregada para resumir o desempenho de um classificador em uma única métrica. Não coloca mais peso em uma classe sobre a outra. Quanto maior a AUC, melhor é o desempenho do classificador.

Curva Precision-Recall (PR)

A curva Precision-recall é usada de forma similiar à curva ROC. Ela retrata o relacionamento entre a precisão e o recall conforme o limite de classificação varia. Uma curva Precision-Recall ideal é aquela que apresenta uma precisão de 1 para todos os valores de recall. Isso significa que o modelo é capaz de identificar todas as instâncias positivas corretamente, sem cometer falsos positivos.

Conclusão

Neste artigo, foram apresentadas algumas das métricas mais utilizadas para avaliar um modelo de classificação em Machine Learning. A acurácia é uma métrica comum, mas pode levar a conclusões equivocadas quando os dados são desbalanceados. Por isso, outras métricas como a matriz de confusão, precision, recall, F-measure, sensibilidade, especificidade e G-mean são importantes para avaliar o desempenho do modelo em diferentes aspectos. Além disso, as curvas ROC e Precision-Recall são usadas para avaliar o desempenho geral do modelo. É importante lembrar que a escolha da métrica adequada dependerá do escopo do problema e da natureza dos dados.

Gostou desse artigo?

Me siga nas redes sociais:

Referências

Nguyen, G. Hoang., Bouzerdoum, A. & Phung, S. (2009). Learning pattern classification tasks with imbalanced data sets. In P. Yin (Eds.), Pattern recognition (pp. 193–208). Vukovar, Croatia: In-Teh.

Edureka. (2022, September 12). Classification in Machine Learning. Retrieved from https://www.edureka.co/blog/classification-in-machine-learning/

--

--