【專案紀實 | 第三屆下學期】 PChome、KKday、FunNow

NTU Data Analytics Club
NTU Data Analytics Club
8 min readAug 8, 2022

NTUDAC 第三屆來到尾聲,本次專案中不僅持續運用上學習所學的 Excel、Tableau、SQL、Python、解決問題方法,更融入了下學期所學的機器學習技能於資料分析專案,替 PChome、FunNow、KKday 三家企業提出物流最佳化、平台的客戶留存、和業務拓展策略。本篇文章除了紀錄專案的研究目標、方法、與成果,還有組員針對專案收穫的第一手回饋唷!

業主簡介

PChome 線上購物:台灣最大 B2C 電子商務網站

PChome 線上購物是台灣最大 B2C 電子商務網站,自2000年開始營運,隸屬台灣最大的電子商務集團 PChome 網路家庭,是台灣消費者網路購物的首選。

KKday:為自由行旅客打造的旅程預定平台

提供旅遊體驗與行程的線上平台,網羅世界各地的深度行程,為旅客省去到不同網站找行程和訂票的困擾,提升規劃自由行的舒適度。

FunNow:即興、即刻的娛樂預約平台

顛覆傳統預訂方式,主打 Last minute 說走就走的預約,將即時享樂的掌控權,交給每一個熱愛生活的人。

專案紀實

PChome online

| Group 1 |

目標:對現有訂單做關聯式分析,藉以優化倉儲配置,讓常被一起購買的商品都擺放在一起,減低商品出貨時需併箱的情況發生,進而提升整體出貨速度。

研究方法:先運用價格剔除可能為贈品的商品,並利用 text similarity 中的 jaccard similarity 方法,將名稱、概念相似商品,彙整成相同名稱及編號。接著,以商品為單位,並擇定一關鍵指標,使用 R 進行關聯分析,利用值的高低找出熱銷商品清單。最後,使用 Python 設定倉庫為二維矩陣,利用兩個不同月份訂單資料分別作為驗證與測試資料,找到能以較短距離完成撿貨的商品擺放設定(將高關聯商品與熱銷商品擺放至倉庫特定位置)。

產出:經分析商品關聯後,提出資料分析建議邏輯,並與隨機擺放方式做模擬驗證,提供更合適的商品擺放配置建議。

組員真心話:本專案從資料處理、分析方法到分析結果的驗證,學習到很完整的資料分析流程,也更進一步認識了物流與電商產業,非常感謝結案報告時業主給予許多回饋。

| Group 2 |

目標:透過關聯性分析,針對現有倉儲提出商品擺放建議,縮短訂單的總撿貨時間。

研究方法:經資料探索後,將過長訂單撿貨時間的原因分為跨館訂單與館內訂單,並進行根因分析。使用 Python、R 中的 Apriori 套件進行訂單分析,以組合間的 support 和 confidence 計算出關聯性分數,並依關聯性分數得出倉儲擺放的相對位置。

產出:使用兩個月的資料進行驗證後,透過關聯性分析提出商品擺放建議。實際透過區館特性與商品觀察,提出數個館模擬結果與範例提供PChome參考與建議。

組員真心話:

專案本身方面,學會於有限資料中,從各種不同的角度和指標分析資料,進而產出解方。不僅大幅精進 R 與 Python 能力,更於整個過程訓練出精準傳達資訊給業主的問題解決力。組員互動方面,除了彼此論過程中細緻了觀點與想法,也很喜歡討論時有重大進展的瞬間!(或是沒有大超時的會議…)

KKday

| Group 3 |

目標:建立企業可使用的用戶標籤、產品標籤系統,進行用戶個人化體驗設計,提高用戶留存與轉換率。

研究方法:首先,根據 MECE 法則檢視與擴充標籤系統以確保覆蓋率。再來,針對標籤發想關鍵字併從產品資料庫用 Python 爬蟲爬取相關產品作為「標籤」與「相關產品」對應的訓練資料集。接著利用處理 NLP 的 Bert 模型進行 multilabel classification 機器學習訓練,進行產品貼標的預測。並利用 Active learning 框架持續優化預測成果。最後,將客戶數位軌跡行為的資料利用 Google Cloud Storage 與 BigQuery 進行多表串接,從使用者旅程將行為分級給予不同權重的積分以計算各用戶對應各標籤的興趣積分,最後產出每個用戶在各個標籤的興趣積分總表。

產出:

一、產品標籤:運用機器學習得出合適且覆蓋率完整的產品多標籤預測模型,其成果為有八成貼標誤差僅一個之內。

二、用戶標籤:運用SQL從用戶行為資料進行多表串接,得出全平台所有用戶在各標籤的興趣積分,企業得依此篩選各標籤的高黏著用戶,或各用戶的主要興趣標籤。

組員真心話:

結識了一群能力很強、做事效率高、好溝通的組員們,還遇到非常認真指引和回饋的業主,一起學習如何運用複雜的機器學習模型、Bigquery 和虛擬主機處理巨量資料和參數。很開心最後與夥伴們努力的結果受到業主高度認可!

| Group 4 |

目標:找出影響註冊的關鍵變數,提升陌生訪客的註冊人數。

研究方法:使用了 SQLite 和 Excel 進行資料探勘和資料視覺化,接著以 GCP 進行資料的清理和合併,最終使用 Python 建立隨機森林模型得到四項影響註冊的關鍵變數。最後找出模型結果中 Feature Importance 較高的變數再深入分析。

產出:得出四項影響註冊的關鍵變數並進行深入分析後,提出兩項能提升陌生訪客註冊樹的行動方案。

組員真心話:專案本身,前期定義問題和資料探勘的環節,學到以終為始建立故事線與業主溝通的重要性的重要性;資料處理過程中鍛鍊了撰寫 SQL 和使用 GCP 進行資料清理和分析的能力;最後也成功建立機器學習模型並解讀結果,產出商業決策。而專案成員互動方面,很幸運有非常 carry 的幹部提點方項、願意給予資源與回饋的業主、和一群學習力極強的組員為共同目標努力著。最終聽到行動方案有有機會在短期落地時,真的超級開心!

FunNow

| Group 5 |

目標:結合外部數據,提供業主未來餐飲業務開發方向的建議。

研究方法:運用了六大指標,包含訂單面、顧客面以及餐廳面,標準化後給予分數,並依照分數加總排名,提出潛力開發地區,接著再以隨機森林模型,找出影響平均週訂單數的關鍵因素。

產出:針對變數組合的優先順序,提出三大開發組合包,藉以提供業主在餐廳端的開發方向。

組員真心話:

專案方面,我們學會簡化抽象的議題,以實際的指標化形式達成目標,並且在不斷地來回溝通中,產出一份以數據導向,但十分淺顯易懂的報告給予非數據團隊相關人員觀看。組員方面,在這個專案終找到志同道合的夥伴,甚至最後還一起報名外面的數據競賽得到亞軍;同時也找到喝酒好夥伴,有趣的是,我們發現約在酒吧討論的效率最高,本次專案主軸方向就是在酒吧中得到的哦!無論如何,在這次專案之中所收穫到的,遠遠不止是專案本身,更是融合過去所學、解決實際業界問題、強化管顧思維的最佳道路。

| Group 6 |

目標:分析不同渠道的用戶特徵,提升 FunNow APP 新用戶之留存率。

研究方法:專案初期使用 Excel、Tableau 進行探索式資料分析,透過與業主不斷的溝通漸漸聚焦目標於特定產業的新用戶。接著運用 Python 進行大量資料的資料預處理,並利用隨機森林模型找出影響用戶回購的關鍵主因。

產出:根據模型結果,提出短、中、長期提升留存率之營運策略。

組員真心話:本次專案讓我們獲得了許多東西。首先,包含溝通技巧的進步、將社課內容學以致用(Python套件 pandas、seabon、scikit-learn,與 Tableau 視覺化呈現)、以及適才適用,讓我們從一開始的模糊目標,逐漸具象成業主的期待。此外,天使業主盡一切所能協助我們修正、迭代專案方向,也會用業界 data team 的嚴謹態度與我們討論專案,還邀請了其他部門的成員與我們分享產業洞見。更幸運的是藉由這個專案機會,具有管顧思維、資料能力、行銷專長的組員都彼此教學相長,讓大家從這次專案帶走了更豐厚的收穫。

最後,再次感謝三家企業的業主們,設定了充滿挑戰性的專案題目協助社員厚實資料分析能力,同時提供所需資源作為社員背後的依靠。也感謝專案成員投入全心全力,透徹利用 NTUDAC 的社課知識與指導幹部協助,完成了這六項專案。下學期專案結束,也象徵著 NTUDAC 第三屆社員完成了這或許跌撞,卻無比扎實與受用的資料旅程,朝更進階的關卡邁進。

NTUDAC 也會持續在 Medium、Facebook 與 LinkedIn 更新專案與社課資訊,歡迎對資料有興趣的大家持續關注,或是對於與 NTUDAC 進行資料分析專案合作有意願的企業跟我們交流想法!

--

--

NTU Data Analytics Club
NTU Data Analytics Club

臺大資料分析與決策社 (NTUDAC) 為一群對資料科學抱有熱忱的臺大學生創立, 旨在教授學員如何利用數據分析解決商業問題的商業性社團,在 Medium 將分享社團課程與實作專案內容,以期推廣資料分析的相關資訊。