資料科學:中小型電商個人化應用

Arthur
Citiesocial Product Team
Jun 3, 2021

資料科學是近幾年相當熱門的議題。

不管是運用機器學習為主的人工智慧、能彙整處理大量資料的大數據(Big Data)、運用在刺激業績的成長調校(Growth Hacking),還是供商業智能分析(Business Intelligence)用的資料倉儲系統(Data Warehousing),都是科技產業的重要命題。

對於我們這些提供線上零售服務的電子商務玩家們,運用資料科學去提升業績和發掘新的商機,更是勢在必行。

而說到如何運用資料,從一位技術人的角度來看,常常都是從函式庫去著手學習、實作。

很不幸地,在實務中很少是套套Tensorflow、PyTorch就能夠跑出差強人意的模型,絕大多數時候都很難在整體公司的營運指標中看到明顯的改變。

這有沒有解呢?

當然有,但是對於中小型(垂直)電商而言,如果沒有事先準備,最後都會碰上人力不足、資料不足、資料中雜訊過多的窘境。

如何在半年、一年前就先對公司的資料需求和個人化策略進行佈局,是相當重要的課題。

中小型電商的資料困境

在電商待過的技術人員,很多可能都聽過所謂的協同過濾Collaborative Filtering),因為這是電子商務還有各類線上消費平台最常見的推薦系統策略。

運用協同過濾有個很大的優勢:那就是可以透過將使用者的行為模型化以後就可以直接開始進行推薦,不太需要公司花大筆資源去為資料上標籤(Data Tagging)進行分類。

而在實務上協同過濾的建置方法也很多,從最單純的一些資料庫檢索就可以完成的陽春版本,到運用叢集分析(Cluster Analysis)或強化學習(Reinforcement Learning)都能夠實作。

但先別急著一頭栽入。因為中小型電商(商家或平台),尤其是在台灣,常常會碰到一些很難克服的資料特性。

要做好資料科學,首先要先拿得到品質良好的資料。

消費行為與資料趨勢

上圖的鐘狀曲線(Bell Curve),也是統計學中最常用的假設:常態分佈(Normal Distribution),當套用在消費者身上時,我們最根本的假設是消費者的消費行為(如金額或購買次數)高於或低於平均值的機率是一樣的。

而這假設本身就有不小的問題,因為消費行為是受到很多不同的社會和經濟因素影響。並不是任何一個商品上架,使用者下單的機率都像擲銅板一樣是50%。

事實上,在經營中小型垂直電商平台常常會看到下面這種分佈圖:

這就是俗稱的「長尾巴」分佈圖(Longtail distribution)。

上面這種圖常出現在台灣中小型電商的顧客長期價值(Customer Lifetime Value)、購買次數、造訪次數等的資料分析結果中。而且在大部分的時候,左手邊的長尾巴佔98%以上的資料。

講白話點,上面這種長尾巴,就是告訴我們,絕大部分的中小型電商的客戶的總購買金額、購買次數、造訪次數都很低,甚至絕大多數都是所謂的一次性買家。

聚集在最右邊的高價值「忠實客戶」族群,通常只佔不到2%。

這對於我們這種中小型電商的去使用協同過濾就出現了一非常嚴重的哲學性問題:如果98%以上的使用者都是低頻率、低價值買家,這些消費資料中的商品交集頻率低,根本不可能去建立有意義的商品關聯性。

反觀高價值的2%,很多通常是消費力較高族群,他們會購買的品項、購買的組合建立的商品關聯性,也很難直接有效應用在其他的98%的低頻率買家身上。

不過這也不是中小型電商的錯。

因為協同過濾本身原本就是為了品項多元、消費行為重複率的全方面電商平台而設計的。對於專攻特定品項或是高單價商品的垂直型電商,本來能夠採集到的消費者資料中就不會有向全方面電商那樣大量的商品關聯性可以參考。

所以當中小型電商用一些傳統的資料科學技巧去進行個人化推薦,結果通常都很令人失望。我們自己就碰過幾次類似的情況:會到citiesocial上購買登山褲的人,跟會購買舒肥鍋、觸控式螢幕或寵物用品的人,在大部分的情況下都不是同樣的一群人。而當大部分消費者在我們這種垂直電商消費的頻率過低,其實是沒有甚麼太有意義的商品關聯性可以利用的。

這種現象,其實有一大部分原因也是因為台灣的電子商務整體而言太過於仰賴企劃和折扣,導致:1) 客戶忠誠度過低,客戶認促銷企劃而不認品牌平台;且客戶多數染上了 2) 折扣疲乏症,沒折扣時就不想買。

中小型電商個人化策略佈局

上述問題棘手歸棘手,畢竟生意還是要做,俗話說「最佳的植樹時點是二十年前,次好的時點就是當下」,與其自怨自艾,不如我們現在來探討如何去為接下來的半年至一年計畫。

如上所述,既然垂直型電商的消費資料商品關聯性沒那麼豐富,我們可以參考其他的一些資料科學技巧去分析歸納消費者族群。

資料採集與資料彙整

在進行任何資料科學工作前,最重要的前置工作就是要確保能採集到高價值的資料。

在資料的管理,應該在初期就先制定資料策略,將即時、短期、長期的資料存取需求釐清,並且將交易、分析和封存的資料分開管理。(延伸閱讀:資料湖泊與資料倉儲的差異

自動與手動標記與分類

中小型電商一般而言不太會有多餘人力去進行資料彙整、內容標記分類的相關工作。因此等到真的有資料分析需求的一天,手上的資料庫常常都是無法應急。

如果有人力能夠將所有的商品都貼上詳細的分類(如居家用品、露營器材等)、顏色、來源國家、風格(如簡約風、工業風)、使用對象(如小家庭、學生、長青族)等標籤,當然是最理想的狀況,但是這對於中小型電商公司而言也是相當不切實際的遐想。

對於這種資料分類上的缺口,有時候利用一些自然語言處理的技巧,有可能就可以從一些商品內容中萃取出一些有用的資訊,來協助進行一定程度的自動分類。(延伸閱讀:自然語言和叢集分析的入門技巧

改從行為結構上著手

今天談到要進入資料科學領域,大部分的人都是從機器學習(Machine Learning)開始,也就是從統計學和機率開始著手。現在越來越少資料科學入門課程會去討論一些被認為「比較過時」的規則式系統(Rule-based systems)、結構學習(Structure Learning)或是圖論機器學習(Graph-based learning)。

而這種資料科學觀點並非不對,而是現在多半的資料科學和機器學習技巧和應用,都假設我們手上已經有大量已被妥善標記的資料可以直接拿來進行分析處理。然而,在中小型垂直電商,我們已經知道這是可遇不可求的理想狀況。

而先前提到的比較「過時」的機器學習方法,都是透過較少量的資料去快速建置結構。這些分析和訓練方法應用在極大的資料集合上時容易會出現雜訊太多導致效度不佳的問題,但是應用在中小型電商的消費行為資料,卻是個可以在短時間內訓練出非常實用的應用模型的好方法。

打個比方,如果今天想要建一個可以在一消費者在瀏覽炒鍋的當下去推薦鍋鏟:如果用統計的方式去做協同過濾,在資料量少且資料「長尾巴」太嚴重的情況下,會比較難去在建一個同時適用於高價值客戶和一次性購買者的應用模型;但是如果今天改用規則式系統或是圖論模型的方式去分析,則是可以用從下而上的方式去建立叢集,反而能夠在僅僅幾百筆,甚至只有幾十筆相關消費行為的情況下找到有實務價值的知識。(延伸閱讀:圖論導向機器學習

中小型電商不妨參考。

--

--

Arthur
Citiesocial Product Team

Citiesocial 產品總監。連續創業家。工程師。