Collaborative Filtering Recommender Systems

Fernanda Sepulveda
2 min readAug 13, 2017

--

Fuente: MAL

Según Schafer et al. (2007) [1] Colaborative Filtering (CF) es el proceso de filtrado o evaluación de ítems a través de opiniones de otras personas. Es un proceso que se basa en el hecho histórico de que las personas buscan opiniones y referencias de otras personas sobre algún objeto. En la actualidad se usan los sistemas de CF para hacer recomendaciones o predicciones a usuarios sobre algún ítem, a través de ratings, ya sean explicitos(unarios como dar favorito como única acción, binarios como like o dislike, o Integer “Likert”-like, valoraciones en números enteros en una escala) o implicitos (tiempo visitando una página, numero de veces que escucho una canción, etc.-). Los algoritmos involucrados pueden ser variados, probabilisticos o no, entre los no probabilisticos se encuentran User-Based Nearest Neighbor e Item-Based Nearest Neighbor que determinan la similitud entre usuarios e ítems respectivamente.

Según Shaffer estos algoritmos pueden usar distintas métricas de similitud, y nombra la de Pearson o bien la lejanía en el grafo, aunque me hubiese gustado que nombrase más relacionadas a la covarianza y como es el desempeño en números de estos métodos de similitud. En cualquier caso, este tipo de calculo es pesado para ambientes de producción, por lo que se usan métodos para disminuir la dimensionalidad de las matrices de usuarios, ítems y ratings, como Clusters en el caso de UBNN y Association Rule Mining en el caso de IBNN. Me parece interesante este tema, y hubiese sido útil conocer más sobre los métodos de clustering usado junto a CF (por lo que me quedará de tarea a futuro investigarlo).

Schafer et al. (2007) [1] es una excelente lectura para comprender CF y la recomiendo para comenzar a adentrarse en lo que es CF. Toca varios temas interesantes, profundizando en algunos como la obtención de ratings y sus implicancias (punto 9.4 de la lectura) donde toca los grandes problemas de CF como la dificultad de capturar ratings (invito a ver páginas chilenas de retail conocidas, como la de Paris y Falabella, donde encontrar un rating es bastante difícil), los Cold Start Issues que sufren las páginas que inician o tienen pocos ratings, en partícular las comunidades nuevas. También las métricas de evaluación, como accuracy, novelty, coverage, etc.- son bien explicadas, y se puede comprender como para algunos sitios lo importante es explorar, donde toma un rol fundamental la novelty, o bien donde lo importante es encontrar ítems similares, donde importa la accuracy.

[1] Schafer, J. B., Frankowski, D., Herlocker, J., & Sen, S. (2007). Collaborative filtering recommender systems. In The adaptive web (pp. 291–324). Springer Berlin Heidelberg.

--

--