Métricas en regresión

Nicolás Arrioja Landa Cosio
6 min readDec 21, 2021

--

La regresión es importante y conocer las métricas que se utilizan nos ayudan a entender su comportamiento y saber que tan correcta es. Lamentablemente mucha gente sólo usa un par de métricas, muchas veces debido al desconocimiento de todas las que tenemos disponibles. En este artículo trataré las diferentes métricas en regresión para que podamos usarlas en nuestros proyectos.

Nivel: básico a intermedio

El error es un concepto muy sencillo, simplemente es la diferencia que existe entre el valor que nuestro modelo ha predicho y el valor real de la observación con la que estamos haciendo el test.

El error en una regresión

Existen diferentes métricas para conocer el error, en este artículo conoceremos las más importantes y cuando debemos de usarlas.

Error absoluto medio, mean absolute error (MAE)

Esta métrica es una medida de la diferencia entre dos valores, es decir, nos permite saber que tan diferente es el valor predicho y el valor real u observado. Para que un error con valor positivo no cancele a un error con error negativo usamos el valor absoluto de la diferencia. Como nos interesa conocer el comportamiento del error de todas las observaciones y no solamente de una, entonces obtenemos el promedio de los valores absolutos de la diferencia.

Esta es la formula que usamos para calcular MAE.

Supongamos que tenemos las siguientes observaciones, representan a los valores reales u observados.

Reales=[3, 2.5, -2, 2.3, 4, 7.2, 8.1]

Y los valores a continuación representan los que nos da nuestro modelo.

Modelo=[3.1, 2.5, -2.5, 2.45, 3.8, 7.8, 7.9]

Ahora calculamos el MAE y el valor que obtenemos es de 0.249, es decir que de todos los errores en las observaciones, el error promedio es de 0.249

Error medio cuadrado, mean square error (MSE)

Esta métrica es muy útil para saber que tan cerca es la línea de ajuste de nuestra regresión a las observaciones. Al igual que en caso anterior evitamos que un error con valor positivo anule a uno con valor negativo, pero en lugar de usar el valor absoluto, elevamos al cuadrado la diferencia.

Siempre nos da un valor positivo y entre más cercano sea a cero es mejor.

La formula a utilizar es la siguiente:

En nuestro ejemplo al calcular el MSE obtenemos 0.103, algo que no tenemos que olvidar es que el valor que obtenemos esta en unidades cuadradas.

Raíz del error medio cuadrado, root mean square error (RMSE)

Como la métrica anterior nos da el resultado en unidades cuadradas, para poder interpretarlo más fácilmente sacamos la raíz cuadrada y de esta manera tenemos el valor en las unidades originales.

La fórmula es similar, pero adicionamos una raíz cuadrada.

El valor que calculamos es de 0.321

R2, R cuadrada

R2 es el coeficiente de determinación, nos indica que tanta variación tiene la variable dependiente que se puede predecir desde la variable independiente. En otras palabras que tan bien se ajusta el modelo a las observaciones reales que tenemos. Cuando usamos R2 todas las variables independientes que estén en nuestro modelo contribuyen a su valor.

El mejor valor posible que tenemos con R2 es 1 y el peor es 0. Una desventaja que tiene es que asume que cada variable ayuda a explicar la variación en la predicción, lo cual no siempre es cierto. Si adicionamos otra variable, el valor de R2 se incrementa o permanece igual, pero nunca disminuye. Esto puede hacernos creer que el modelo esta mejorando, pero no necesariamente es así.

La fórmula es:

Al calcular el valor para nuestro pequeño dataset obtenemos 0.989 que es un buen valor.

R2 Ajustado

Con R2 Ajustado compensamos la desventaja de R2 con la adición de variables, esto se logra al penalizar la adición de variables independientes al modelo.

En la formula N es el número de filas y M, el número de columnas o variables.

El valor valor que nos da con el dataset es de 0.987

Cuando usamos R2 y R2 Ajustado, si R2 se incrementa debido a un valor significativo R2 Ajustado también incrementa. Si no hay un cambio significativo en R2 entonces R2 Ajustado disminuye.

Error Logarítmico RMS, RMSLE

En esta métrica obtenemos el RMSE pero de de las predicciones transformadas por el logaritmo y los valores actuales transformados por el logaritmo. Mide la proporción entre la predicción y el actual. Muchos se preguntan por que necesitamos usar logaritmos. Si recordamos un problema que existe con RMSE es la sensibilidad a los outliers, esto nos puede llevar a que el valor del error se incremente mucho. Al usar los logaritmos, los outliers se ven escalados por lo que evitamos ese efecto.

La formula a utilizar es:

Con esta métrica entré más cercano sea el valor a 0, es mejor. Para nuestro ejemplo obtenemos un valor de 0.004

Porcentaje de error medio absoluto, mean absolute percentage error (MAPE)

Esta es una métrica de la precisión, pero se presenta como si fuera un porcentaje, como ventaja tiene que es independiente de la escala y fácil de interpretar. Como desventaja es que puede producir valores no definidos, infinito o muy cercanos a cero.

El calculo es sencillo, para cada observación obtenemos su porcentaje de error y luego sacamos la media de todos esos valores.

En nuestro ejemplo obtenemos el valor de 7.23%

Cuándo usar las métricas

Ahora que conocemos estas métricas básicas, es importante conocer cuando las podemos usar y cual es mejor en cada situación.

MSE y RMSE penalizan los errores grandes en la predicción, pero RMSE se usa más gracias a que esta en las unidades originales de los datos.

MSE/RMSE es una función diferenciable lo cual facilita ciertas operaciones matemáticas, en comparación a MAE que no es diferenciable. Por esta razón muchos modelos usan como métrica de default RMSE para calcular la función de pérdida.

MAE es más robusto cuando los datos tienen outliers o datos atípicos y es la mejor opción a usar en esos casos.

Valores pequeños de MAE, MSE y RMSE nos indican mayor precisión en el modelo de regresión, pero hay que recordar que para R2 un valor más grande es mejor.

R2 y R2 ajustado se usan para explicar que tan bien la variable independiente en la regresión lineal explica la variabilidad de la variable dependiente. R2 siempre aumenta de valor cuando incrementamos la cantidad de variables independientes en nuestro modelo y es algo que tenemos que tener en cuenta y no dejarnos confundir al creer que realmente esta mejorando el modelo, puede que no, para solucionar esto usamos R2 ajustado.

R2 ajustado toma en cuenta el número de variables independientes, también conocidas como predictores, y su valor baja si el incremento en R2 debido a las variables adicionales no es lo suficientemente significativo.

Para comparar la precisión entre diferentes modelos de regresión lineal generalmente es mejor usar RMSE que R2

Conclusiones

Lo más importante no es únicamente conocer las métricas sino saber cuando usarlas para que nos permitan entender la precisión de nuestro modelo. El saber si hay outliers en el dataset es importante para seleccionar la métrica adecuada.

Si deseas conocer un ejemplo con código para este artículo, lo puedes hacer apoyándome en Patreon: https://www.patreon.com/nicosio

--

--

Nicolás Arrioja Landa Cosio

Soy un científico computacional me especializo en Inteligencia Artificial y me gusta compartir mis conocimientos.