협업 필터링 (Collaborative Filtering)

가장 흔하게 사용되는 추천 시스템 알고리즘은 협업 필터링(CF) 및 협업 필터링을 바탕으로 생겨난 다양한 알고리즘이다. 초보 데이터 사이언티스트도 이력서에 넣을 프로젝트로 간단한 영화 추천 시스템을 만들 수 있다.

유저에게 뭔가를 추천하고 싶다면 우선 유저와 공통된 관심사를 가진 사람들을 찾아야 한다. 그리고 그들의 행동을 분석하고, 해당 유저에게 비슷한 물건을 추천해 주면 된다. 다른 방법으로는 유저가 기존에 샀던 물건과 비슷한 물건을 찾고, 그 물건을 유저에게 추천해 줄 수 있다.

위 두 가지 방법 모두 협업 필터링을 사용했다: 순서대로, 사용자 기반 협업 필터링(user-based collaborative filtering)과 아이템 기반 협업 필터링(item-based collaborative filtering)이다.

두 추천 시스템 모두 두 가지 과정을 거친다:

데이터베이스에 특정 유저/물건과 비슷한 유저/물건이 얼마나 많은지 알아낸다.
제일 비슷한 유저/물건의 총점을 바탕으로 특정 유저/물건에게 제품의 사용자가 어떤 점수를 줄 지 예측한다.

여기서 말하는 “제일 비슷한”은 무엇인가요?

“제일 비슷한” 유저나 물건을 찾을 때는 각 유저의 선호도를 반영한 벡터(행렬 R의 가로줄)와 각 상품에 대한 유저의 평을 반영한 벡터(행렬 R의 세로줄)만을 가지고 시작한다.

두 벡터 중 공통적으로 아는 값을 집중해서 보자. 위 사진을 보면, Bill은 타이타닉을 보지 않았고 Jane은 배트맨을 보지 않았기 때문에 영화 스타워즈만을 가지고 그들의 유사성을 계산해야한다.

코사인 유사도(cosine similarity)와 상관관계(correlations)가 유저/물건의 벡터들의 유사도를 계산하는데 제일 자주 사용되는 방법이다. 계산된 유사도를 바탕으로 가중산술평균 값을 구해서 표의 빈칸을 채우면 끝난다.

클러스터링 (Clustering)

지금까지 소개된 추천 알고리즘은 비교적 간단하고 소규모 시스템에 적합했다. 전부 지도 학습 바탕의 머신 러닝으로 구성된 추천 시스템이기 때문이다. 이제는 비지도 학습 바탕의 추천 시스템을 알아보도록 하겠다.

협업 필터링과 행렬 분해에 시간이 상대적으로 많이 들어가는 대규모의 추천 시스템을 만든다고 생각해보자. 그러면 머릿속으로 처음으로 떠오르는게 바로 클러스터링일 것이다.

비즈니스 초기에는 사용 가능한 유저 데이터가 많이 없기 때문에 클러스터링이 제일 좋은 방법일 수 있다.

하지만 실질적으로 클러스터링만을 사용해서는 효과적인 추천을 할 수 없다. 클러스터링은 유저들을 다양한 그룹으로 분류하고, 그룹 내에 모든 유저에게 같은 아이템을 추천해주는 것이 전부이기 때문이다. 물론 시작 단계에서 클러스터링을 사용하면 협업 필터링 알고리즘에서 다루는 아이템 양을 줄일 수 있다. 또한, 클러스터링을 사용함으로서 복잡한 추천 시스템의 성능도 발전시킬 수 있다.

쉽게 말하자면, 각 클러스터에 해당하는 유저의 성향에 따라서 클러스터의 성향/취향이 부여될 것이다. 그 후 각 클러스터에게 추천을 하는 시스템이다.

딥러닝 추천 시스템 (Deep learning approach for recommendations)

최근 10년 동안 신경망(neural network)은 빠르게 성장해나갔고, 이제는 전통적인 머신 러닝 방법을 대체하며 다양한 분야에서 적용되고 있다. 유튜브에서 사용하는 딥러닝 기반 추천 시스템을 소개하도록 하겠다.

당연히 큰 스케일, 다이나믹한 코퍼스(corpus), 그리고 예상하지 못한 외부 요인 때문에 유튜브 같은 서비스를 위한 추천 시스템을 만드는 것은 굉장히 복잡하다.

“Deep Neural Networks for YouTube Recommendations”의 분석에 따르면, 유튜브의 추천 시스템 알고리즘은 두개의 신경망(neural network)으로 이루어져 있다: 하나는 후보 생성(candidate generation)을 위해서, 다른 하나는 순위(ranking)를 매기기 위해서이다. 시간이 없는 분들을 아래 리서치 내용의 간단한 정리를 읽어보는 것을 추천한다.

후보 생성 네트워크(candidate generation network)는 유저의 기록을 인풋(input)으로 받은 후, 커다란 코퍼스(Corpus: 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료) 중 관련성이 높은 영상들을 모아서 한 그룹으로 만들며 영상의 양을 현저히 줄이는 역할을 한다. 여기서 생성된 후보들이 우리가 추천해주려는 사용자와 제일 관련있다. 이 네트워크의 목표는 협업 필터링을 통해 더 폭넓은 개인화를 제공하는 것이다.

이제 후보 생성이 끝났으니 다루는 후보의 양도 훨씬 적다. 이번 단계의 목표는 순위 네트워크(ranking network)을 통해서 후보를 하나하나 더 세밀하게 분석하고 최선의 판단을 내리는 것이다. 순위 네트워크는 각각의 영상에 대한 유저 행동 데이터 분석하는 목적함수(objective function)를 만들어서, 각 영화에 대한 예측 평가 점수를 계산한다.

그리고 제일 높은 점수를 받은 영화가 유저에게 보이게 된다.

위 소개된 두 가지 단계 덕분에 이 알고리즘은 유저에게 수많은 영상 중 추천할 영상을 선정할 수 있고, 그 영상들이 유저에게 적합하고 관심가는 주제라는 것 또한 확신할 수 있다. 뿐만 아니라 딥러닝 기반 추천시스템은 다른 출처에서 생성된 영상도 혼합해서 추천할 수 있도록 설계되어있다.

이 추천 시스템은 특정 시간 t 안에 사용자(U)와 내용(C)을 기반으로 한 코퍼스(Corpus, V)에서 수백만 개의 비디오 클래스(i) 중 특정 영상 (wt)을 정확하게 분류할 수 있는 멀티 클래스 문제로 여겨진다.

추천 시스템 알고리즘

협업 필터링 (Collaborative Filtering)

여기서 말하는 “제일 비슷한”은 무엇인가요?

추천을 위한 행렬 분해 (Matrix decomposition for recommendations)

클러스터링 (Clustering)

딥러닝 추천 시스템 (Deep learning approach for recommendations)

추천 시스템을 만들기 전에 알아둘 점!

Written by Dayoon Kim