Machine Learning -Métricas de avaliação: Acurácia, Precisão e Recall, F1-score
Depois de criarmos nosso modelo de classificação vamos precisar de métricas para avaliar o quão preciso é nosso modelo, mas qual métrica usar e o que cada uma significa? Esse artigo foi inspirado em vários artigos que encontrei na internet, as fontes estão no rodapé.
Acurácia: é a quantidade de acertos do nosso modelo divido pelo total da amostra.
Com ela queremos responder a seguinte pergunta: o quão certo meu modelo está?
Um exemplo prático seria um algoritmo que classifica imagens de animais como gatos e não gatos, gerando ao final a matriz de confusão abaixo:
Relembrando: Uma matriz de confusão é uma tabela que indica os erros e acertos do seu modelo, comparando com o resultado esperado
Neste exemplo teríamos a soma de tudo que o algoritmo acertou (sejam eles verdadeiros positivos ou verdadeiros negativos) divido pelo total de amostras, o que daria em nosso exemplo, 65/100 = 0,65 ou 65%.
Precisão: de todos os dados classificados como positivos, quantos são realmente positivos.
No exemplo acima teríamos: 25/(25+10) = 0,71 ou 71% de precisão.
Ou seja, conseguimos acertar com precisão, que 71% das imagens classificadas como gatos realmente eram gatos.
DICA: em um precisão de 1.0 ou 100% significa que não houve nenhum falso positivo.
Recall: qual a porcentagem de dados classificados como positivos comparado com a quantidade real de positivos que existem em nossa amostra.
No exemplo acima teríamos um recall de 25/(25+25) = 0,5 ou 50%.
Ou seja, nosso modelo conseguiu acertar apenas 50% dos gatos presentes na amostra.
DICA: em um recall de 1.0 ou 100% significa que não houve nenhum falso negativo.
F1-score: essa métrica une precisão e recall afim de trazer um número único que determine a qualidade geral do nosso modelo.
No exemplo acima teríamos um F1-score de 2*(0,71 * 0,5)/(0,71 +0,5) = 0,58 ou 58%
Resumo:
Acurácia: qual a proporção de gatos e não gatos que foram corretamente classificados.
Precisão: qual a proporção dos dados classificados como gatos eram realmente gatos. (aqui buscamos os falsos positivos)
Recall: entre todas as amostras que realmente eram de gatos, qual a proporção classificada como gatos. (aqui buscamos os falsos negativos)
F1-score: uma maneira de observar em um único número a precisão e o recall.
Abaixo algumas imagens que podem ajudar no entendimento dessas métricas:
Fontes: