推薦系統是什麼?What is Recommender System?

Winnie
7 min readAug 3, 2021

--

📌 碩一的暑假修了一門資料探勘相關的課,讀論文的過程中讀到了一個很熱門的主題-推薦系統,因此想將這個主題的基本概念獨立成一份筆記,用簡單易懂的方式說明,以方便日後複習,也分享給想了解推薦系統的你。目錄:
📍 什麼是推薦系統(Recommender System)
📍 推薦系統到底是怎麼運作的呢?
📍 推薦系統如何出現在生活中?
📍 推薦系統的缺點與限制
📍 總結

什麼是推薦系統(Recommender System)?

在電商平台上,同一個品類就有五花八門的產品;在Youtube跟Netflix等平台上,各式各樣的影片、影集,也時常讓人們面臨「選擇障礙」的狀況。

而面對大量的選擇,商人們究竟用了什麼神奇的工具,來決定呈現在我們眼前的商品呢? — — 就是推薦系統!

在維基百科上,推薦系統的定義是這樣的:

一種信息過濾系統,用於預測用戶對物品的「評分」或「偏好」。

簡單來說,推薦系統就像是一個「過濾器」,會依照特定的規則進行過濾,進而預測使用者會喜歡的東西,呈現在使用者眼前。

這樣的工具可以幫助商人「降低消費者的選擇時間,提高衝動購買的機率」,以提升銷售業績!

聽起來雖然有點邪惡,但其實,推薦系統也能提升人們使用的便利性,幫助大家找到最適合自己的商品。

返回目錄

這個神奇的過濾器到底是怎麼運作的呢?

推薦系統的分類
推薦系統的類別

要達成過濾器的過濾目標,除了要有大量的使用者資料以外,也必須要有演算法的配合。

現今有許多研究學者推出了各式各樣的推薦系統演算法,而在這裡,我只記錄最常見的兩種 — — 內容過濾(CB)與協同過濾(CF)!

推薦系統的功能
推薦系統的類別基礎

內容過濾(Content-Based Filtering)

以「商品的內容」為基礎 → 找出商品跟商品之間的關聯,把商品做分類
→ 不需要有用戶資料也可以進行推薦,適合推薦陌生用戶使用。
→ 也可以針對使用者以前喜歡的商品,推薦類似的商品給使用者。

內容過濾的運作
內容過濾的運作模式

協同過濾 (Collaborative Filtering)

以「用戶的興趣」為基礎,以團體的行為來做決策

協同過濾又分為 User- Based 與 Item-Based 兩種:

  • User- Based : 計算使用者之間的相似程度,將相似用戶有興趣的商品推薦給使用者 → 需要蒐集使用者資訊,例如評價、購買紀錄等
  • Item-Based : 計算商品之間的相似程度 ,把相似的商品推薦給使用者
    → 喜歡產品A的使用者也喜歡產品B/C/D的有多少
協同過濾的運作
協同過濾的運作模式

要如何選擇用User- Based 還是 Item-Based 的方法呢?

  • User-Based的協同過濾系統通常會推薦最熱門(點擊率最高)的商品,然而,最熱賣的商品不見得是消費者最有興趣的。
  • Item-Based 的協同過濾系統比較容易推薦長尾(long-tail) 的商品,所謂長尾商品就是指那些「購買聲量不高,但消費者會持續購買的商品」

註:Chris Anderson在 2004年提出長尾效應,指出只要規模夠大,非主流、需求量小的商品總銷售量也能夠和主流、需求量大的商品銷量平起平坐。

  • 以電商相關的部門來說,因為擁有大量的使用者資料(既有客戶、潛在客戶、沉睡客戶等),如果使用 User-Based 的模式去計算用戶的相似程度,會需要耗費很大量的時間,因此會建議使用 Item-Based 的方法。
  • 對於一些以提供內容為主的網站來說(如:部落格),當他們在推薦適合的內容給讀者的時候,由於文章會一直更新,就比較適合使用User-Based的協同過濾系統進行推薦。

協同過濾系統的 Model Based

剛才所提到的 User-Based 和 Item-Based 都是以過去的記憶為基礎,所以被稱為 Memory Based。

而 Model Based 的協同過濾方法則是以模型為基礎,透過歷史資料得到一個模型,再藉由那個模型去預測其他的資料。

Hybrid Recommendation 混合推薦

「混合推薦」顧名思義就是結合上述的內容推薦協同過濾等方法來建立推薦系統,以增進推薦的效率。

由於資料的複雜程度,以及每種商品都有其適合的推薦方式,業界許多推薦系統的應用都會混合不同的方法甚至結合機器學習演算法來做推薦系統。

返回目錄

推薦系統如何出現在生活中?

推薦系統在生活中無所不在,可以被廣泛利用在社群媒體推播、網頁內容推薦甚至是交友軟體等面向。

舉例來說,平常通勤時在捷運上聽音樂所使用的 Spotify、KKBOX 等音樂串流平台就是使用推薦系統來推薦音樂給我們。

此外,在 Amazon 電商平台上瀏覽商品時,商品頁面底下所顯示的:「Frequently Bought Together…」以及「Customers Who Bought This Item Also Bought…」等內容也是推薦系統在現實生活中活生生的例子。

隨著機器學習技術的進展,許多資料科學家也開始應用影像的辨識技術來提取出以前無法提取的內容(Content),例如照片;而透過這些技術結合機器學習的方法(例如,建立迴歸模型),就可以做出更多不一樣的推薦系統。

過去的推薦系統通常是用人工手動操作來完成,而現今透過數據分析的技術,許多學者提出許多演算法及模型,可以透過網站上蒐集的大量資料來做出精準、客製化的推薦。

然而,這些推薦系統仍存在一些缺點與限制,將在下一個部分做說明。

返回目錄

推薦系統的缺點與限制

看似完美的推薦系統仍然有存在的限制與缺點,主要分為兩個方向:

  1. Cold start 冷啟動
  2. Data sparsity 資料稀疏

Cold Start (冷啟動)的問題

在推薦系統中,冷啟動的問題是指「沒有充足的訊息」而造成推薦效果不佳。以電商平台來說,冷啟動的問題可以歸類成兩個面向:產品與使用者。新的電商平台可能沒有足夠的產品上架或是會員資料,導致推薦系統的訊息不足,無法有效運作,進而影響推薦效果。

此外冷啟動在協同過濾系統中一直是很大的問題。對於曝光度低的冷門產品(long-tail item),無論是哪一種協同過濾系統(User-based / Item-based),都不會把商品推薦給使用者,使得那個產品會一直處在冷門的狀態。

Data sparsity 資料稀疏的問題

然而,當電商平台的資訊量過多的時候,也可能造成所謂「資料稀疏」的問題。舉例來說,如果平台上的某個品類有太多相似的產品,當使用者瀏覽頁面的時候無法看過大部分產品,就會造成蒐集資料上的稀疏。

資料的規模越大,資料稀疏的問題就越嚴重,這也是目前許多學者們們想解決的問題。

返回目錄

總結

以上是我對推薦系統的整理筆記,我是一位剛踏入研究所的菜鳥,希望能透過整理筆記來產出自己所學習的內容,也順道分享給大家,歡迎看過的高手給予指教及建議,喜歡的話也歡迎分享!

返回目錄

--

--

Winnie

Winnie Liu | 現職資料分析師 | 紀錄關於資料分析、資料視覺化、機器學習等筆記