W3: Evaluating collaborative filtering recommender systems.

Tamara Alexandra Cucumides
tam_recomienda
Published in
3 min readSep 2, 2019

Esta es mi crítica a Evaluating collaborative filtering recommender systems de Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004).

¿De qué se trata el paper?

El objetivo de este trabajo es dar las directrices (y puntos claves) que se debe tener en consideración para evaluar efectivamente un sistema recomendador basado en filtrado colaborativo. Además de servir como manual, el paper presenta algunos resultados prácticos.

Crítica y comentarios

El paper es un documento bastante extenso, que no escatima en evaluar muy diversos aspectos de la implementación de un sistema recomendador en sí, como del contexto en el que este se inserta. Algo bastante novedoso de este trabajo es que el enfoque está mas inclinado hacia lo práctico, que hacia lo meramente académico. Destacan, en este sentido, las secciones en las que se hace un estudio a las ganancias de los usuarios del sistema recomendador (y no solo a la ganancia de quién lo implementa).

En relación a lo anterior, creo que el público objetivo del paper trasciende un poco a la academia (investigadores) y se perfila hacia la implementación real de un sistema recomendador en un ambiente económico-industrial (se nota en varias partes una discusión orientada al marketing, pese a que en la introducción dice que omitirán esto).

El análisis psicológico-sociológico que hace el paper acerca de los usuarios me parece muy acertado e incluso un poco adelantado a su tiempo, sobre todo al mostrar cómo la interacción del usuario con los ratings puede deberse a este afán de influenciar a los demás (a darle más notoriedad a aquellos items que a mi me interesan), algo que es muy común hoy en día (p. ej: fans reproduciendo múltiples veces videos de su artista favorito en youtube para que estos alcancen la página principal de la plataforma)

Otro aspecto muy positivo del paper es que es explícito en enunciar las limitancias que tienen las pruebas offline de los sistemas recomendadores y que, por lo general, en la academia estas se usan casi como verdad absoluta, buscando siempre mejoras en métricas de desempeño de datos tomados de manera offline de los datasets más clásicos.

Un punto muy alto del paper es que, además de hablar de qué deben tener en cuenta los sistemas recomendadores en sí, también se hace cargo de las características que deben tener los datasets para entrenarlos. Creo que esto es muy relevante, puesto que sienta las bases sobre las cuales se pueden haber generado más datasets (que por lo que veo, en ese tiempo hacían bastante falta, puesto que casi todos los papers utilizan solo los dataset de MovieLens y Netflix).

En general considero que el trabajo teórico del paper es bastante acertado y mis críticas van a ir dirigidas a la parte experimental de este trabajo. En primer lugar, los resultados que presentan están basados en “a single family of algorithms on a single dataset”. Ellos advierten que los resultados no son exhaustivos, pero si pretenden que las relaciones entre métricas puedan ser extrapolables a otros casos. Comprendo la decisión, pero me parece que con tan solo haber variado un poco en uno de los dos actores (el dataset o los algoritmos), tendríamos resultados que podríamos decir con seguridad que no son propios ni del algoritmo ni del dataset.

Otro punto de fallo en el documento, es la incapacidad que tiene de compatibilizar las distintas necesidades de métricas que propone: por una parte la propuesta es predecir lo que al usuario le gusta, tratando de a partir de interacciones pasadas anticipar interacciones futuras. Sin embargo, el real objetivo de un sistema recomendador es crear un cambio en el comportamiento del usuario, es decir, proponerle items que el no hubiese encontrado por si sólo… cómo pretendemos hacer esto si estamos nos guíamos por qué tan bien predecimos las cosas que el usuario consume?

Finalmente, el paper aún deja la pregunta abierta sobre cómo podemos evaluar realmente a un sistema recomendador… parece ser que con offline testing no es suficiente, sin embargo, aún cuando se pudiese hacer estudios online, es extremadamente difícil aislar y poder medir cuál es el efecto del sistema recomendador, puesto que en el mundo real, existen múltiples factores que pueden modificar los resultados.

--

--