[RecSys] Evaluating Recommendation Systems (Shani y Gunawardana, 2011)
En este extenso trabajo, los autores presentan distintas metodologías para evaluar sistemas recomendadores. En primer lugar, describen distintos tipos de experimentos que se pueden realizar con sus respectivas ventajas y desventajas. Por último, hacen una recopilación de las distintas propiedades de los sistemas recomendadores con sus respectivas métricas. Hacen especial énfasis en que las métricas deben usarse como herramienta para tomar una decisión respecto a cuál sistema recomendador usar.
En general, los sistemas recomendadores son evaluados de acuerdo a su capacidad de predicción. Sin embargo, existen otros aspectos que pudiesen ser deseables, tales como el descubrimiento de nuevos ítems, exploración rápida de diversos ítems, privacidad y muchas más.
Una de las limitaciones del trabajo, es que evalúa los sistemas recomendadores guiándose con propiedades específicas y particulares por separado. Luego, usando esas propiedades se hacen las comparaciones entre distintos sistemas recomendadores. Sería interesante desarrollar alguna metodología que lograse incorporar múltiples propiedades al criterio de comparación de sistemas.
Los autores mencionan que no es posible mejorar todas las métricas al mismo tiempo. Dicho de otra forma, existen tradeoffs entre propiedades que es necesario tener en consideración.
Respecto a los distintos experimentos que se pueden realizar para evaluar sistemas recomendadores, se mencionan tres tipos: offline, usuarios en focus group y usuarios en producción. Cada uno tiene sus respectivas ventajas y desventajas.
Agnóstico al tipo de experimento que se use, es necesario seguir algunos principios: formar una hipótesis antes de ejecutar los experimentos, controlar las variables que no están siendo evaluadas y ser capaces de generalizar las conclusiones.
Sobre los experimentos offline, su gran desventaja es que es difícil modelar correctamente el comportamiento de los usuarios. Tiene la ventaja de ser barato de hacer.
Por otra parte, los experimentos con usuarios en focus group pueden ser una herramienta muy conveniente pero tienen la desventaja de poder estar sesgados por la metodología de evaluación y además ser caros. Finalmente, la prueba con usuarios en producción tiene la ventaja de ser la prueba más fidedigna en comparación al resto de las opciones, sin embargo, tiene como desventaja el riesgo asociado a probar sistemas recomendadores con usuarios reales.
En la última parte del trabajo, se realiza una extensa descripción de las distintas propiedades que podrían ser deseables en un sistema recomendador, junto a sus respectivas métricas de evaluación. Se presentan propiedades tales como preferencia del usuario, precisión de la predicción, cobertura, confianza del sistema, confianza de los usuarios, novedad, serendipia, diversidad, utilidad, riesgo, robustez, privacidad, adaptabilidad y escalabilidad.
