Evalúa según tu producto

[RecSys] Lecturas Semana 3. Evaluating Recommendation Systems

Francisco Rencoret
Sep 2, 2018 · 3 min read

El paper escrito por Guy y Gunawardana se basa en la evaluación de sistemas recomendadores analizando su rendimiento para ciertas propiedades que se requieren del sistema. Para cada producto se estudian que propiedades debe cumplir el sistema y luego se evalúan los sistemas según su rendimiento en esas propiedades y se selecciona el mejor.

El paper menciona que existen tres grandes tipo de experimentos para probar rendimientos sobre las propiedades objetivas.

El primero son los Experimentos Offline: se utiliza un set de datos para entrenar los modelos sin la necesidad de interactuar con usuarios reales. Es un buen método para medir exactitud de la predicción de ratings pero falla porque la cantidad de propiedades a medir es limitada. Se menciona que los datos no deben contener bias pero faltó recalcar la importancia de que los datos sean una muestra representativa de lo que sería el sistema en producción real. Al extraer los datos de las bases de producción, nos debemos asegurar de: tomarlos todos, tomar una muestra estratificada pero más pequeña o tomar separadamente gamas de datos teniendo en consideración lo que representan.

Los User Studies son aquellos estudios presenciales que se les hacen a los usuarios. Se selecciona un grupo selecto de usuarios y se les pide interactuar con el sistema. En base a esa interacción y a su posterior feedback se puede evaluar a los sistemas. Generalmente este método provee una mayor flexibilidad para medir propiedades ya que se pueden crear experimentos personalizados para los usuarios dependiendo de lo que se quiere medir. Estoy de acuerdo con que la muestra de usuarios debe ser una fiel representación de los usuarios del sistema en producción, pero es fundamental asegurarse que el comportamiento de los durante el experimento sea también una fiel representación de los comportamientos de los usuarios del sistema real. Generalmente en esos testeos es fácil inconscientemente guiar al usuario a que tome ciertas decisiones o a forzar los experimentos hacía ciertos rubros. Es importante mantener la verdadera libertad del su comportamiento.

El tercer experimento es son los Experimentos Online donde se prueban en producción distintos sistemas y se comparan sus resultados dependiendo de como los usuarios interactuaron con ellos. Si bien este método proveé información de mucha calidad (testeando con usuarios reales) puede ser un arma de doble filo. Si se prueba un modelo que no da buenos resultados, los usuarios que interactuaron con él puede que se queden con una mala impresión del sistema y no vuelvan a usarlo. En mi opinión, estos experimentos en línea debería solo usarse para comparar modelos que se sabe de antemano que tendrán un buen recibimiento por parte de los usuarios, es decir, solamente evaluar esa diferencia marginal de efectividad pero asegurándonos que todos funcionan bien. De esta manera se mitiga ese riesgo.

Luego el paper explica en detalle las distintas propiedades que un sistema podría cumplir dependiendo de las necesidades del producto. Me gustó mucha esa sección porque explica y ejemplifica bien cada propiedad dejando muy claro que es lo que se mide, como se mide y porque importa. Sería útil tener un framework para poder combinar y ponderar estas propiedades porque generalmente los productos deben apuntar a más de una. Entiendo que una suma ponderada podría funcionar, pero sería interesante poder tener un estudio teórico por detrás que ayude a encontrar los hiperparámetros de la ponderación y saber así cuanto énfasis hay que ponerle a las distintas propiedades.

Considero que este es un muy buen paper, muy explicativo y hasta lo considero un manual a seguir para la evaluación de los sistemas recomendadores. Explica bien que experimentos realizar dado los recursos disponibles y analíza que propiedades debe cumplir el sistema recomendador en base a las necesidades del producto. Me habría gustado que diera más apoyo en la implementación, dando referencias a librerías que ayuden a implementar estas métricas de evaluación.

    Francisco Rencoret

    Written by

    Ingeniero Civil @ Pontificia Universidad Católica de Chile