W3: Evaluating recommendation systems

Tamara Alexandra Cucumides
tam_recomienda
Published in
3 min readSep 2, 2019

Esta es mi crítica a Evaluating recommendation systems de Guy, S., & Gunawardana, A.. (2011)

¿De qué se trata el paper?

Este trabajo tiene por objetivo entregar una guía, tanto para la comunidad de investigación como para la comunidad comercial, que les permita identificar las propiedades claves a tener en cuenta a la hora de escoger entre diversos sistemas recomendadores.

Comentarios y críticas

Como primer comentario general, me sorprendió mucho el enfoque del paper: realmente da la impresión de que se está leyendo un paper de sociología o psicología más que de sistemas recomendadores en si, puesto que el fuerte del trabajo está en analizar la experiencia de usuario y de cómo explotar esta de manera que sea capaz de entregar las métricas necesarias para evaluar un sistema recomendador. El estudio comparativo que mencionan, más que ser una comparación entre distintos algoritmos, es una comparación de las distintas maneras que se tienen para poder realizar estudios y testeos sobre estos.

Al comenzar a leer el paper, hay cosas que llaman bastante la atención: la primera es el alto nivel de estructura que se propone para llevar a cabo experimentos con sistemas recomendadores. En la segunda sección nos plantean que es necesario guiarse por un modelo de hipótesis, control de variables y análisis de poder de generalización, bien esquemático. Sin embargo, considero que en ámbitos como este, donde realmente se sabe tan poco acerca de qué realmente busca el usuario (y, por qué no, qué buscan también los investigadores), es necesario dejar espacio para que los experimentos puedan dar luces de nuevo conocimiento que puede no ser precisamente para el que fueron diseñados. Creo que, con lo complicado que es conducir experimentos con gente, es mejor que estos sean más generales y que puedan luego dar pie a tesis más específicas.

El paper en la segunda sección hace mención de diversos test estadísticos que sirven para poder comparar distintos algoritmos (p. ej: Test Bonferroni, ANOVA, etc), test que tienen ciertos supestos (que en algunos casos son bastante fuertes) de normalidad, independencia, homocedasticidad, entre otros. Falta, en esta sección (y en realidad en todo el trabajo), que los autores puedan mostrar que estos supuestos se cumplen empíricamente (en caso contrario, de nada sirven los tests). En general creo que el documento sería mucho mejor si se hubiese incluido un trabajo de experimentación

Otro punto que es curioso, es cómo la discusión tan matemática de métricas de desempeño termina decantando en un estudio de “marketing” acerca del comportamiento de los usuarios. Creo que es muy importante separar en este sentido, la evaluación teórica (“de investigación”) de un algoritmo y/o método versus la eficacia que tienen estos al ser implementados. Puede pasar que el mejor método “en papel” no sea aquel que más aumente las utilidades de la empresa que utiliza el sistema recomendador. Creo que es hora de que se analice si realmente estos objetivos son uno solo o simplemente dos distintos

Si bien creo que el paper aborda bien las diferentes características que debe de cumplir una buena recomendación (coverage, novelty, trust, etc.) creo que para ser un paper del 2011, la discusión es muy básica y que faltan varias aristas. Algunos ejemplos: hay items que triggerean el consumo de otros (p.ej: primer capitulo de una serie, items complementarios, etc) y hay items que no son de consumo regular (p.ej: si me acabo de comprar un refrigerador, raramente me querré comprar otro en el corto plazo). Son características de sentido común, pero que no son considerados en este trabajo (quizás porque aún no se logra solucionar lo básico).

Respecto de lo anterior eso si, no me puedo quedar sin destacar que este es el primer trabajo que leo en el que se hacen cargo de la robustez del modelo frente a información falsa y que creo que es demasiado importante hoy en día, donde es particularmente facil entrometer datos falsos en los sistemas de ratings de plataformas online.

Al igual que el paper de Herlocker et al. el documento se escapa un poco de lo que uno está acostumbrado a leer en papers especializados en algoritmos y métodos y se introduce en otros temas. En la misma línea y considerando que los trabajos tienen 7 años de separación, no considero que se muestre un verdadero avance en este paper respecto del otro mencionado. Algunas técnicas mencionadas están actualizadas, pero en términos de dificultades, parece ser que no se ha logrado solucionar ninguna, lo que es sintoma evidente de que esta discusión es particularmente difícil, no estamos hablando de reconocer fotos de perros o gatos, estamos evaluando una tarea mucho más complicada, que más que buscar predecir comportamiento, busca inducirlo.

--

--