就這樣懂AI — 推薦系統系列1:什麼是推薦系統

富銘AI物語
就這樣懂AI️@IF.Lab
10 min readMay 12, 2019

====================================

科普作者團隊:黃福銘教授、謝馨頤、蔡政宏、馮正毅、詹欣儒、吳岱恩、吳翊瑄、彭鈺湄(東 吳大學巨量資料管理學院)

指導計畫單位:科技部科教發展及國際合作司–前沿科技成果轉化暨應用推廣計畫

====================================

相信大家對於看不懂的專有名詞一定都會尋求維基百科的幫助吧?那麼維基百科中推薦系統的定義是什麼呢?

「一種信息過濾系統,用於預測用戶對物品的『評分』或『偏好』」

簡單來說,它就像個濾網,藉由這種方式來找出不同的物品或人(使用者)之間的關聯,接著預測你可能會喜歡或需要的東西。

你可能會問,到底要怎麼找到物品和人(使用者)之間的關聯去做預測,這就要講到這個系統背後的運作方式了。

(圖一)

第一,內容過濾(content-based recommendation)。

所謂的內容過濾就是指利用物品屬性進行推薦,而物品的屬性可以是音樂的類型或電影的風格等等。此方法算是最早開始使用的,它會根據你過去喜歡的產品,去推薦過去你喜歡的相似產品給你。例如,一個網路書店會根據你之前找很多英文相關書籍就推薦你此類產品。

講到這裡你可能會想知道整個系統是怎麼運作的,而內容過濾可以分為三個部分:Item representation,是指為每一個物品(item)選出其特徵來表示此物品;Profile learning,是指利用使用者過去對一個物品喜好程度的數據來學習該使用者的偏好;Recommendation generation,就是透過前兩者的比較而得出,並為使用者推薦一組相關性最大的物品。

舉一個例子來說明,每個人對於不同類別文章的喜愛程度都有所不同。今天就以個性化閱讀來說,一篇文章就是一個物品,而在第一步(item representation)的地方我們必須找出此篇文章的特徵,也就是從文章內容理解它屬於哪個類別。第二步(profile learning)就是根據使用者過去喜歡什麼文章來找出該用戶的偏好,比如某位使用者經常關注泰國旅遊的文章,那系統所找出的用戶偏好中,泰國旅遊就會比其他種類的文章還要多。透過第一步和第二步的數據,系統就可以計算兩者的相關度並對使用者推薦文章了,也就是把所有物品中與使用者相關性最高的推薦給他。

另外一個運作方式就是協同過濾(collaborative filtering)。

最早應用此技術的原因是為了解決資訊過載的問題,Xerox公司在Palo Alto的研究中心裡,員工每天會收到非常多的電子郵件卻無法篩選及分類,於是研究中心就發展此種郵件系統(Tapestry)解決此問題。接著於1994年一個應用於新聞篩選的系統(GroupLens)問世,透過閱聽者看過新聞內容後給予評分,其目的在幫助新聞的閱聽者過濾其感興趣的內容,而此系統相較於前者更具開放性、方便性、規模性及隱密性。由此可知,當時推薦系統的雛形也已形成,與GroupLens相似的有MovieLens(電影推薦系統)、Video Recommender(影音推薦系統)等等,直至今日YouTube也屬於性質相近的網路推薦平台。與前兩者較為不同的就非電子商務推薦系統莫屬,而最有名的便是亞馬遜網路書店(Amazon)!顧客在選擇一本自己感興趣的書籍後,就會在下方看到一行「Customer Who Bought This Item Also Bought」,亞馬遜是根據「對同樣一本書有興趣的讀者們,在某種程度上有類似興趣」的假設下來提供推薦,漸漸的各網路書店也接著跟進此項服務,比如博客來網路書店、誠品網路書店。

講了一大堆推薦系統的發展過程,也大概對它有點概念了吧?是不是更想知道協同過濾在做什麼了呢?

其實它的運作方式與前面提到的內容過濾有點差別,協同過濾是藉由那些和你擁有相似偏好的使用者去預測你的個人偏好,進而提供個人化的推薦,也就是透過使用者過去的行為來做推薦。而光是一個協同過濾的運作方式其實也分很多種的,有以記憶為基礎的(Memory-based)和以模型為基礎的(Model-based)

(圖二)

Memory-based類別中又分為兩種方法:以使用者為基礎的協同過濾(User-based)、以物品為基礎的協同過濾(Item-based)。

首先講到user-based,它就是在計算使用者間的相似性,簡單來說就是找到幾個和你有相似喜好的使用者。你一定會問系統到底是怎麼找的吧,最主要就是必須先收集使用者資訊了,一般的網站會是透過「給予評價」的方式,就是所謂的「主動評分」;而相反的「被動評分」就是根據使用者的行為模式由系統來完成評價,不需要手動輸入評價資料,電子商務網站就屬於此類,因為透過顧客的購買記錄便可得知大量的相關資料了。接著透過幾種不同的演算法計算出兩個使用者的相似度,有了這些相似度就可以針對使用者做預測並推薦了!而Item-based的協同過濾則是指計算物品間的相似程度,也就是喜歡物品A的使用者也喜歡物品B的有多少個,整個過程與前者類似,只不過此種方式不須考慮到使用者的差異,所以精準度的效果也會不太一樣。

前述以記憶為基礎的協同過濾技術共同有的缺點就是資料稀疏問題,因為難有較大量的支援資料而影響其分析結果,於是便發展出以模型為基礎的(Model-based )協同過濾,此方法是預先用歷史資料得到一個模型,再透過它做預測。

事實上,看似完美的協同過濾還是有一些缺點的,最典型的有兩點:

冷啟動問題(Cold Start):所謂的冷啟動就是說我們沒有足夠的使用者與物品間的訊息而造成推薦系統效果不佳。比方說今天有一個新開發的電子商務網站,但因為他才剛成立所以並沒有使用者的資料,所以這就造成推薦系統無法精確的將某商品推薦給消費者,而必須等到有足夠大量的使用者相關資料才能夠有效的做推薦。

稀疏性問題(Sparsity):隨著使用者和商品的數目增長,推薦系統的規模也必須擴大,但這也表示商品與用戶的重疊性降低了,也就是說使用者幾乎是沒辦法把一個網頁上的所有商品都瀏覽過。試想一下像淘寶這種規模非常大的電子商務網站所擁有的商品數(號稱8億),平均來說一位使用者所瀏覽的商品有可能是總商品數的百萬分之一(800件)嗎?幾乎是不可能吧,由此可知其稀疏度應該非常的高了。因此資料規模越大,稀疏性問題就更嚴重,如果能夠有效處理這種問題的演算法就可以說是很有前途的。

那麼推薦系統跟人工智慧又有什麼關係呢?

其實過去傳統的網站或其他領域都是有推薦這種模式的,只不過大多只是以網站後端者利用手動去操作而已,而隨著新科技的快速發展,大家對於數據的蒐集、對演算法及模型的應用都有一定的理解及應用能力,也是因為這樣才漸漸開始使用機器代替人為的操作去推薦了,同時也有辦法做到精準的客製化推薦,所以由這樣的演化過程可知,加入人工智慧的推薦系統可以說是幫助了很多人,不管是公司背後經營者或是消費者其實都得到了非常多的好處。

舉幾個有名的例子來說,大家平常坐捷運、坐公車的時間最常使用的音樂串流平台(Spotify)就是這種推薦系統,還有平時大家追劇所使用的影音串流平台(Netflix)、最廣大的社群媒體平台(Facebook)以及一些電子商務網站(Amazon)等等,相信大家對這些網站都不陌生,不過是不是也都沒有想過這些網站背後竟然有這麼大的功臣呢?

而這些網站的推薦系統都是以每位顧客為基礎,根據他們的行為模式和喜好去做即時的推薦。大家在滑臉書的時候一定很常看到一些廣告,我們仔細去研究每個廣告你就會發現就是推薦一些你最近有在查詢的東西。比方説你最近在網路上搜尋「香港的機票」,那麼你在滑臉書時,各式各樣有關香港的資訊都會出現,而它出現的原因就是因為系統發現你最近很常搜尋香港,所以認為你可能對香港很有興趣,它就會不停地跳出相應的廣告,透過這樣的方式就有可能吸引到你消費。反觀過去以手動方式的推薦,有可能無法如此精準,相較之下就沒有那麼的有效率了。

除了這些網站的推薦,還有其他應用的領域嗎?
非常多!我們來看看有哪些吧!

社群網絡中的推薦系統聽起來好像很陌生,不過其實它一直都在我們的身邊,先前提到Facebook推薦系統的運作,還有Spotify, Netflix 等等,這些都是非常有名的例子。

同儕互評(Peer Assessment)顧名思義就是同學之間互相評分(Rating),那為什麼它會牽涉到推薦系統呢?因為透過學生互相評分可以幫助老師更了解學生的學習情況,這個概念就很像你想要從萬個商品中了解它們不同的特性一樣,而且這也是推薦系統所涵蓋的原理之一。

商業中的潛在客戶就是指透過先前提到的推薦系統原理,最後預測出有哪些客戶是公司的潛在客戶,藉此可以幫助公司在做重要決策時給予正確的方向。

旅遊路徑推薦大概是大家最期待的了吧,透過同時考慮很多個旅遊考量因素或個人喜好因素等等的多目標最佳化(Multi-objective optimization)的方式,計算找出一條或多條旅遊路徑,幫助旅行者規劃景點路線及時間等等。

影像辨識顧名思義就是讓機器能夠知道影像想表達的東西,而透過各種機器學習、深度學習、電腦視覺等技術,讓電腦看懂圖片內容,進而做各種有趣的應用或推薦,甚至是將影像及文字做匹配並按照最能夠讓閱聽者感興趣的順序來播放影片內容。

看到這裡,是不是都聽起來非常有趣呢?接下來,一系列的文章我們將介紹這些有趣推薦系統的應用,我們就趕快進入推薦系統的世界吧!

本系列包含的文章如下唷:

@ 就這樣懂AI — 什麼是人工智慧

@ 就這樣懂AI — 推薦系統系列1:什麼是推薦系統

@ 就這樣懂AI — 推薦系統系列2:社交推薦你我他

@ 就這樣懂AI — 推薦系統系列3:聰明的智慧評比

@ 就這樣懂AI — 推薦系統系列4:了解您的潛在顧客

@ 就這樣懂AI — 推薦系統系列5:令人滿意的旅程推薦

@ 就這樣懂AI — 推薦系統系列6:在三百六十度裡的自然理解

====================================

本系列科轉整合型計畫團隊簡介
◉總顧問:許永真教授。國立臺灣大學/資訊工程學系
◉顧問群:中華民國人工智慧學會理監事群
◉顧問:張羽祈(科普顧問/資料科學家)
◉總計畫:前沿人工智慧科研成果轉化:轉譯、呈現、與評估
(黃福銘教授。東吳大學/巨量資料管理學院)
◉子計畫一:人工智慧成果影響評估與轉譯及人工智慧知識圖譜之生成
(黃福銘教授。東吳大學/巨量資料管理學院)
◉子計畫二:視覺敘事:以資訊圖像與動態圖像敘述人工智慧
(林廷宜教授。國立臺灣科技大學/設計系)
◉子計畫三:前沿人工智慧科研成果轉化之成效評估與教育推廣
(吳穎沺教授。國立中央大學/網路學習科技研究所)
◉子計畫四:人工智慧科技轉化之教材/教案資源開發
(田曉萍教授。國立臺灣科技大學/應用外語系)

====================================

--

--