WiDS Taipei 2020 | 在網路聲量論定產品好壞的年代,我們需要好的機器學習來翻轉 — 張雅涵 Elisa

Anne Hsiao
Taiwanese in Data Science
7 min readApr 5, 2020
講者介紹-張雅涵(Elisa)
📍現任職於 Newegg 擔任線上購物平台資料分析師。畢業於長庚臨床醫學研究所,主要研究藥物經濟學(臨床資訊)。專長為機器學習、商業/生物/工業統計。熱愛分享資料科學領域相關知識,除了在企業擔任 Python 資料分析課程講師,亦長期經營個人社群品牌,常透過公開平台分享資訊,試圖用淺顯易懂的方式揭開資料分析師的神秘面紗。
📍講者影片介紹 : https://www.facebook.com/watch/?v=853629618396501

在電商時代趨勢下,涵蓋於生活中的食、衣、住、行、育、樂皆可仰賴於電商平台,然而商品種類眾多,消費者在購物前習慣透過商品歷史客戶評價(Customer Reviews)來進行選購,具有參考價值的評論提供客戶更全面的產品訊息,亦能提升潛在客戶對於平台的信賴度。

那應如何篩選出適切的商品評價呢?以往大多採用人工的方式進行審核,但在網路聲量時代下,評價的數量與日俱增,相當耗費人力成本,因此在機器學習的時代下,透過演算法的方式針對商品評價進行篩選,不僅可減少人力支出,更可以有效的進行模型優化。

▍客戶評價審核流程

消費者於 Newegg 平台上購物後,可針對購買商品進行評價,所有評價會進到 SQL Database,分析師藉由資料庫所搜集的資料進行建模,以篩選出不適合顯示於 Newegg 頁面上的評價,包含與此產品不相關的評價內容、惡意攻擊、含有大量負面詞彙的內容,而後會將這些待商榷的評價交由人工審查小組做進一步的審核,以判斷其是否適合出現於 Newegg 頁面上。

▍分析工具

透過 SQL Database 進行資料轉置(Data Transform),接著使用 Python 進行資料分析,分析步驟包含透過資料分析函式庫 pandas 進行數據清理以及 scikit-learn 中的羅吉斯迴歸(Logistics Regression)演算法進行建模。

▍實務分析流程

透過機器學習優化商品評價,主要分為以下五個流程:觀察特徵、欠抽樣和過抽樣、特徵選擇、羅吉斯迴歸、最後透過評估指標來判斷模型是否有效。

一、觀察特徵(Features)

針對 Newegg 平台上商品的評價內容,特徵涵蓋以下四個維度:

(1) 消費者留言的文字內容

  • 長度:評價標題與優缺點描述的長度,一般若長度越長,可能表示購買商品的消費者希望此留言是能夠獲得更多其他消費者的注意。
  • 位置:評價是否為此商品的唯一評論以及留言的排序位置。
  • 評分/審查:留言者針對商品的給予的分數以及其他消費者針對此篇留言給予的反饋分數。
  • 文字:留言中是否提及其他電商或是其他品牌,其涵蓋整體留言比例的多寡。

(2) 以人為中心的相關指標

  • 藍海愛好者:消費者偏好於已有多數留言的狀況下進行留言,認為此留言的觀注力相對較低,亦或者偏好於在還未有評價的商品下進行留言,認為此留言的被參考性較高。
  • 過往評分紀錄:過往針對商品的平均評分以及評分的標準差,透過其整體評分的紀錄,將客戶分為好好先生小姐、完美主義者、中庸者三個族群。

(3) 以商品為中心的相關指標

  • 商品的當前售價、平均售價以及售價的標準差。

(4) 是否提到特定關鍵字

  • 評價中是否提到像是 Newegg、取代、優惠…等關鍵字。

二、欠抽樣(Undersampling)和過抽樣(Oversampling)

電商平台的評價中有 90% 以上都會被認定可顯示於 Newegg 頁面上,只有不到 10% 的評價是會被撤下來的,顯示訓練樣本中被認可與被撤下的分佈是不均勻的。

為了解決客戶評價資料樣本不平衡的狀況、以使得模型有更好的訓練效果,可透過隨機刪除佔較多數類的樣本,稱作欠抽樣(Undersampling),和將佔較少數的樣本複製多份,稱作過抽樣(Oversampling)來進行數據處理。

此次分析透過 Accuracy & Recall Rate 來衡量模型效果,無論是使用欠抽樣或過抽樣來進行樣本處理,Accuracy & Recall Rate 都是差不多的,最後選擇採用欠抽樣,因寫的程式碼較簡潔,之後較好維護,且計算時間較低。

三、特徵選擇(Feature Selection)

使用 Recursive Feature Elimination (RFE) 針對上述提到的所有特徵進行篩選,選出相對於其他變數更具有解釋力的特徵,透過減少特徵數量來提升模型預測的準確度,也可同時增加模型的解釋力。

四、羅吉斯迴歸(Logistic Regression)

採用羅吉斯迴歸進行分析,預測某篇評價可顯示於 Newegg 頁面上以及需要被撤下的機率 (p),與線性迴歸不同之處在於,線性回歸用於預測連續的數值的問題,而羅吉斯迴歸則用來預測分類問題。

五、評估指標(Evaluation Metrics)

上圖為時常用來評估分類模型的混淆矩陣(Confusion Matrix),共分為四個象限。

  • 第一象限表示情況為可顯示但模型判斷為需撤下(False positive)
  • 第二象限表示情況為需撤下且模型判斷為需撤下(True positive)
  • 第三象限表示情況為需撤下但模型判斷為可顯示(False negative)
  • 第四象限表示情況為可顯示且模型判斷為可顯示(True negative)

本次分析採用 Recall Rate 進行模型評估,判斷需被撤下的評價中有多少被模型抓到,所以 Recall Rate 值越高越好。

標準的制定會根據每間公司、團隊而有所不同,以上圖案例來說,若算出來的 p > 0.75 我們就會直接將這條評論放到 Newegg 介面上,若 p < 0.75 則會進一步交由人工小組審查,若通過人工小組審查則放上網站,反之移除。

▍Q&A

Q1、實際執行過的評論相關專案,是如何透過機器學習進行優化?帶來的商業效益為何?

之前還未透過機器學習建模時,公司審查小組往往一天需要花上 8 小時的時間來篩選留言;經過機器學習的建模後,平均只需花 2 小時的時間。減少了大量的人力成本後,可以讓過往負責審查的員工做更有價值的事情。

Q2、未來有考慮爬取其他電商平台的資料作為 training data 嗎?

目前公司的 database 處於相當緊繃的狀態,評價涵蓋的文字量龐大,因此暫時無法爬取額外平台的資料進來。

Q3、通常使用怎麼樣的方法來處理反串或是反諷的評論?

針對使用「過多正面」或是「過多負面」詞彙的評論給與較低的分數,篩選出來後交給審查小組進一步人工判斷。

Q4、除了羅吉斯迴歸(Logistic Regression)之外,是否有嘗試使用其他模型進行分析?

另外還有使用 LSTM 與 FastCNN,也透過 Combine Model 的方式進行模型評估。

想更深入了解 WiDS Taipei Conference 2020 的活動內容嗎?歡迎到此連結索取當天活動的 12 份完整簡報檔!

更多 WiDS Taipei 2020 精彩演說紀錄,回索引文:

--

--