Machine Learning -Métricas de avaliação: Acurácia, Precisão e Recall, F1-score

3 min readAug 9, 2020

Depois de criarmos nosso modelo de classificação vamos precisar de métricas para avaliar o quão preciso é nosso modelo, mas qual métrica usar e o que cada uma significa? Esse artigo foi inspirado em vários artigos que encontrei na internet, as fontes estão no rodapé.

Acurácia: é a quantidade de acertos do nosso modelo divido pelo total da amostra.

Com ela queremos responder a seguinte pergunta: o quão certo meu modelo está?

Um exemplo prático seria um algoritmo que classifica imagens de animais como gatos e não gatos, gerando ao final a matriz de confusão abaixo:

Relembrando: Uma matriz de confusão é uma tabela que indica os erros e acertos do seu modelo, comparando com o resultado esperado

Neste exemplo teríamos a soma de tudo que o algoritmo acertou (sejam eles verdadeiros positivos ou verdadeiros negativos) divido pelo total de amostras, o que daria em nosso exemplo, 65/100 = 0,65 ou 65%.

Precisão: de todos os dados classificados como positivos, quantos são realmente positivos.

No exemplo acima teríamos: 25/(25+10) = 0,71 ou 71% de precisão.
Ou seja, conseguimos acertar com precisão, que 71% das imagens classificadas como gatos realmente eram gatos.

DICA: em um precisão de 1.0 ou 100% significa que não houve nenhum falso positivo.

Recall: qual a porcentagem de dados classificados como positivos comparado com a quantidade real de positivos que existem em nossa amostra.

No exemplo acima teríamos um recall de 25/(25+25) = 0,5 ou 50%.
Ou seja, nosso modelo conseguiu acertar apenas 50% dos gatos presentes na amostra.

DICA: em um recall de 1.0 ou 100% significa que não houve nenhum falso negativo.

F1-score: essa métrica une precisão e recall afim de trazer um número único que determine a qualidade geral do nosso modelo.

No exemplo acima teríamos um F1-score de 2*(0,71 * 0,5)/(0,71 +0,5) = 0,58 ou 58%

Resumo:

Acurácia: qual a proporção de gatos e não gatos que foram corretamente classificados.
Precisão: qual a proporção dos dados classificados como gatos eram realmente gatos. (aqui buscamos os falsos positivos)
Recall: entre todas as amostras que realmente eram de gatos, qual a proporção classificada como gatos. (aqui buscamos os falsos negativos)
F1-score: uma maneira de observar em um único número a precisão e o recall.

Abaixo algumas imagens que podem ajudar no entendimento dessas métricas:

Fontes:

Métricas Comuns em Machine Learning: como analisar a qualidade de chat bots inteligentes —…

Nos primeiros dois artigos já falamos sobre o porquê utilizar apenas a precisão geral do modelo como métrica não é…

medium.com

Como saber se seu modelo de Machine Learning está funcionando mesmo

Como saber se seu modelo de Machine Learning “está bom” usando essas métricas

paulovasconcellos.com.br

Métricas de Avaliação: acurácia, precisão, recall… quais as diferenças?

Em problemas de classificação, você provavelmente precisará de alguma maneira de avaliar seu modelo. Em uma rápida…