Precisión y recuperación (Precision and recall)

Gonzalo Gasca Meza
2 min readJan 26, 2018

En Machine Learning el cálculo de la precisión y recuperación (también conocido como alcance) es muy sencillo.

La precisión es la fracción de todas las instancias relevantes dividido entre las instancias obtenidas.

La recuperación es la fracción de instancias relevantes que se han obtenido sobre la cantidad total de instancias relevantes. Tanto la precisión como la recuperación se basan en una comprensión y medida de la relevancia:

Imagina que hay 100 casos positivos entre 10,000 casos. Y quieres predecir cuáles son positivos, para esto eliges 200 para poder capturar la mayoría de los 100 casos positivos. Primero registras los IDs de sus predicciones, y cuando obtienes los resultados reales, resumes cuántas veces acertaste. Hay cuatro formas de estar bien o mal:

  1. TN / True Negative: Caso cuando es negativo y es predecido negativo.
  2. TP / True Positive: Caso cuando es positivo y es predecido positivo.
  3. FN / False Negative: Caso cuando es positivo, pero es predecido negativo.
  4. FP / False Positive: Caso cuando es negativo, pero es predecido positivo.

Ejemplo:

Ahora nos toca contar cuales de estos casos estan en cada categoria.

  1. ¿Qué porcentaje de predicciones fue correcta?
    La exactitud (accuracy) es (9,760+60) de 10,000 = 98.2%
  2. ¿Qué porcentaje de predicciones positivos fueron correctas?
    La precisión (precision) es 60 de 200 = 30%
  3. ¿Qué porcentaje de casos positivos fueron capturados?
    La recuperación (recall) es 60 de 100 = 60%

Formulas

precisión = True Positive / (True Positive + False Positive)

recuperación = True Positive / (True Positive + False Negative)

--

--