Content-based artwork recommendation: integrating painting metadata with neural and manually-engineered visual features, 2018.
[critical review]
El artículo de investigación “Content-based artwork recommendation” publicado por Pablo Messina, Vicente Dominguez, Denis Parra, Christoph Trattner y Alvaro Soto, logra interceptar la problemática de los sistemas recomendadores para plataformas de venta de piezas únicas de obras de arte. Este trabajo contribuye al área mediante una exploración de métodos de recomendación basados en contenido. A través del estudio del impacto de las características visuales extraídas con arquitecturas de aprendizaje profundos, la metadata, y características extraídas con descriptores handcrafted como naturalidad, brillo y contraste, son capaces de generar recomendaciones con un alto nivel de confianza.
Destaca desde un inicio que el formato del artículo promueve a los autores plantearse cuatro preguntas de investigación. Una de las preguntas más relevantes es hasta qué punto es posible predecir compras de personas basándose en características basadas en contenido. De cierta forma el artículo busca responder de forma constante a esta pregunta. Sin embargo, llama la atención que no hayan especificado por qué no se podía incluir información de datos no estructurados como texto. Si bien informan que la metadata en forma de entradas de texto es limitada, no especifican el contenido como para entrar más en profundidad. En un trabajo futuro, podría ser de utilidad en tanto este tipo de información puede pasar por redes del estado del arte capaces de procesar lenguaje natural como BERT o ELMo.
En cuanto a los métodos, el artículo expone cuatro aproximaciones al problema, las cuales son analizadas de forma individual y en combinaciones entre ellas a través de experimentos. Para el baseline comparativo, utilizan tanto una variación personalizada del algoritmo Most Popular, como la popularidad de los artistas según sus ventas para cada usuario. El aporte principal de la investigación se centra en la extracción de características visuales latentes representadas como embedding. Para ello utilizan el método de transfer learning con las arquitecturas AlexNet y VGG pre-entrenada con los datos de ImageNet. Mencionan que la desventaja principal es que las características obtenidas son de naturaleza latente, es decir que son variables no directamente observables si no inferidas desde otras variables observables. Esto significa que las salidas no serían fácilmente interpretables, lo cual complica el poder generar explicaciones para el usuario. Sin embargo, una forma de solucionar esto es relajar un poco la definición de explicación e indicar al usuario que las recomendaciones fueron generadas ya que son similares a una lista de items, generada con métricas de distancia en base a los mismos embeddings. Esto es análogo a lo que hace Amazon al colocar debajo del artículo de interés una lista de ítems similares.
Es importante señalar que en la Figura 5 del artículo donde refiere a la evaluación offline, los autores dan a entender que cuentan con información temporal. Esto quiere decir que pueden inferir ciertos comportamientos de compra para usuarios frecuentes. Con ello se podría aumentar la capacidad de personalización del recomendador y agregar por ejemplo cierto nivel de insistencia para motivar al usuario a que siga comprando. Más aún y derivando de esta idea hacia lo planteado en [1], sería aún más interesante realizar una evaluación pre y post agregación del sistema recomendador a la plataforma, ya que quizás el hecho mismo de contar con un recomendador en la plataforma aumente la motivación a la compra. Un punto a corregir también según [1] es que la visualización que eligieron para la evaluación online podría no haber sido una comparación entre métodos si no una seguidilla de comparación de pares o listas de recomendaciones. Como mencionan Guy y Gunawardana por lo general a mayor conocimiento de los evaluadores sobre de la finalidad de la evaluación, más alto es el sesgo que se imprime en los experimentos.
Queda claro en los resultados que las características extraídas con redes de aprendizaje profundo superan a las manuales o handcrafted en todas sus combinaciones posibles. Aunque hoy en día pareciera un común de los resultados del estado del arte, el esfuerzo de comparar ambas es notable y continúa aportando al conocimiento en las investigaciones del campo. Sin embargo los mejores resultados están en el modelo híbrido que combina la popularidad del artista, las características visuales y las características visuales extraídas de forma manual. También es consistente con la evaluación online realizada a expertos que declaran los autores. El contar con la popularidad de los artistas hace que suba mucho la calidad de la recomendación. Sin embargo la popularidad del artista también depende del catálogo de ítems a disposición como es mencionado en [2], y para mantener esa popularidad debería contar con un stock más o menos regular.
Referencias
[1] Guy, S., & Gunawardana, A.. (2011) Evaluating recommendation systems. En Recommender systems handbook (pp. 257–297). Springer, US.
2] Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems (TOIS) (pp. 5–53).