Machine Learning -Métricas de avaliação: Acurácia, Precisão e Recall, F1-score

Mateus Pádua
3 min readAug 9, 2020

--

Depois de criarmos nosso modelo de classificação vamos precisar de métricas para avaliar o quão preciso é nosso modelo, mas qual métrica usar e o que cada uma significa? Esse artigo foi inspirado em vários artigos que encontrei na internet, as fontes estão no rodapé.

Acurácia: é a quantidade de acertos do nosso modelo divido pelo total da amostra.

Com ela queremos responder a seguinte pergunta: o quão certo meu modelo está?

Um exemplo prático seria um algoritmo que classifica imagens de animais como gatos e não gatos, gerando ao final a matriz de confusão abaixo:

Relembrando: Uma matriz de confusão é uma tabela que indica os erros e acertos do seu modelo, comparando com o resultado esperado

Neste exemplo teríamos a soma de tudo que o algoritmo acertou (sejam eles verdadeiros positivos ou verdadeiros negativos) divido pelo total de amostras, o que daria em nosso exemplo, 65/100 = 0,65 ou 65%.

Precisão: de todos os dados classificados como positivos, quantos são realmente positivos.

No exemplo acima teríamos: 25/(25+10) = 0,71 ou 71% de precisão.
Ou seja, conseguimos acertar com precisão, que 71% das imagens classificadas como gatos realmente eram gatos.

DICA: em um precisão de 1.0 ou 100% significa que não houve nenhum falso positivo.

Recall: qual a porcentagem de dados classificados como positivos comparado com a quantidade real de positivos que existem em nossa amostra.

No exemplo acima teríamos um recall de 25/(25+25) = 0,5 ou 50%.
Ou seja, nosso modelo conseguiu acertar apenas 50% dos gatos presentes na amostra.

DICA: em um recall de 1.0 ou 100% significa que não houve nenhum falso negativo.

F1-score: essa métrica une precisão e recall afim de trazer um número único que determine a qualidade geral do nosso modelo.

No exemplo acima teríamos um F1-score de 2*(0,71 * 0,5)/(0,71 +0,5) = 0,58 ou 58%

Resumo:

Acurácia: qual a proporção de gatos e não gatos que foram corretamente classificados.
Precisão: qual a proporção dos dados classificados como gatos eram realmente gatos. (aqui buscamos os falsos positivos)
Recall: entre todas as amostras que realmente eram de gatos, qual a proporção classificada como gatos. (aqui buscamos os falsos negativos)
F1-score: uma maneira de observar em um único número a precisão e o recall.

Abaixo algumas imagens que podem ajudar no entendimento dessas métricas:

Fontes:

--

--