WiDS Taipei 2023 | 家樂福的數據應用之路 — 李思蓓 Pei Lee

Yasmine Cheng
Taiwanese in Data Science
14 min readJul 6, 2023

主編/鄭雅綿

📍講者介紹:

Pei 現為家樂福數據應用處長。
面對現今快速的數位轉型挑戰,尤其家樂福為台灣量販產業中數一數二的頂尖公司,
大量的消費者購物行為數據蒐集以及如何將數據變現或者輔助決策成為 Pei團隊主要的任務。

Pei從 0 到 1 建立家樂福的現代數據團隊,並負責內部數據倉儲的建置與維運、
商業智慧 (BI) 數據分析及平台維護、人工智慧 (AI) 創新提案及開發導入。

「家樂福:世界第七大零售商」

(Source:Carrefour)

家樂福於 1959 年創立於法國,是一家大型零售集團,位列世界首要的零售集團。1963 年第一家量販店於法國開幕,1987 年則於台灣成立,2 年後正式對外開始營運,不僅在法國、其他歐洲國家甚至台灣等,都是當地規模最大之量販業者。共有四種營運型態,分別是量販店﹑超市便利購﹑線上購物及家速配。

💡家速配介紹:

是 2022/04 上線的 APP,家樂福線上購物所提供的生鮮雜貨外送平台。
有近萬件商品快速配送服務,包含生鮮、雜貨、生活日用品、小家電、五金、烘焙、熟食、便當、咖啡蛋糕、衣物等,
線上訂購最快 1 小時送到家,可以想像成和 Uber Eats﹑Lalamove﹑Foodpanda 類似的服務。

官網連結:https://events.carrefour.com.tw/carrefourfast/index.html

「如何support四種營運型態?」

The mere formulation of a problem is far more essential than its solution.

家樂福的Data Warehouse共分成了兩階段,因解決的問題不同。分別會用Real Case和大家做介紹~~

💡Tips:

建置Data Warehouse是需要先確定Warehouse的Scope(規模)及Target(目標),
況且家樂福是一家非常Business Oriented(營運導向)的公司,
因此在處理問題上一定會先了解應用﹑待解決的問題為何。
(Source:WiDS 2023)

Data Warehouse 1.0

🌊Flow:

System A/B/C → Google cloud Platform → Salesforce Marketing Cloud
💡Salesforce-Journey Builder介紹:

透過各種component(Entry Source﹑Activities...)的選用,建立出Marketing pipeline,
描述使用者在購買時會經過的流程,並且將整個流程自動化部署,如此可讓行銷人員更省力。

<Case 1> Sales Lift Analysis:Does one marketing campaign work?

  • 問題:某數位廣告是否有效提升購買成效?
  • 方法:將顧客隨機分群(實驗組80% 對照組20%),分析廣告投放前後的購買成效是否明顯提升。若實驗組(有投放廣告)真實提升購買成效,則實驗組平均客單價/對照組平均客單價>1

※ 需注意是否為真隨機分組,檢驗實驗組﹑對照組的消費者基本資訊(年齡…)或是消費習慣(Recency﹑Monetary…)是否比例相當,以確保實驗結果為可信數據。

  • 結果:根據兩波的數位廣告投放後,Lift值不僅無有效提升,Revenue Per Order更有下降的趨勢,推估某數位廣告無法幫助提升購買成效(也可發現此次的實驗分組為真實隨機,因實驗前的Lift值)。
  • 調整:歸因為推論出行為原因、因果關係。因擔心實驗的歸因期過短,可能導致消費者看到廣告後,有驅使購買行為,不過尚未發生,則實驗不採納,導致投放廣告後無凸顯提升購買成效的結果。嘗試將歸因期拉長再次實驗,結果顯示Lift值仍無有效提升(仍徘徊於1附近),因此本次實驗結論-某數位廣告無法有效提升購買成效。

<Case 2> Marketing Media Performance Analysis:Can one marketing media replace the other one?

  • 問題:數位廣告媒體是否可以取代傳統紙本目錄?
  • 方法:將消費者隨機分成三組,分別對各群消費者當月只投遞某一種廣告,Group A為傳統紙本目錄﹑Group B為數位廣告﹑Group C則不做任何溝通。一個月後分析各族群的購買成效是否有所提升,以及各族群的購買成效變化。

※ 需注意是否為真隨機分組,檢驗各族群的消費者受眾人數是否差不多﹑各族群的人口特徵及消費習慣是否比例相當,以確保實驗結果為可信數據。

  • 結果:
    1. 「投放數位廣告的族群」不僅在消費頻率(F)﹑消費金額(M)上都高出「投放傳統紙本目錄的族群」約15%,也高出「不做任何溝通的族群」約4%及10%。發現數位廣告對於實際購買的轉換是最有效的。
    2. CPA上「投放數位廣告的族群」更大大減少了「投放傳統紙本目錄的族群」68%。因傳統紙本目錄需要有原料﹑印刷等費用,屬於高耗材/財作業,行銷成本是非常高的,數位廣告相對成本較不高。
💡CPA介紹:

Cost Per Action每次行動成本 = 總成本(真正購買或達到最終目標的數量) / 轉化次數。

<Case 3> Predictive LTV Marketing Campaign:Would performance get better if we give different customer different marketing weight?

  • 目標:預測顧客終身價值並做分眾行銷,是否針對不同族群的顧客做不同的權重﹑廣告內容或形式可以達到更好的收益?
  • 方法:利用GCP-Vertex AI建立Regression Model預測顧客終身價值,區分兩族群顧客成高價值及一般顧客,並且做不同的廣告操作。
  • 結果:
    1. 有效區分出高價值及一般顧客,透過高價值顧客的ROAS﹑Reversion Rate都高於一般顧客約3倍上下,並且CPA不到0.5倍,可發現高價值顧客投入的成本遠低於轉換的價值,也是非常高機率會被轉換的。
    2. 針對不同族群的顧客,比較分眾行銷策略前後的ROAS,發現分眾行銷後的ROAS為分眾行銷前的3倍多。因此,做分眾行銷的投資報酬率是非常高的。
💡ROAS介紹:

Return on AD Spending廣告投資報酬率 = 流量創造營收 / 流量獲取成本。

<Global Use Case> Retail media & performance platform

💡零售媒體廣告(Retail Media Ads/Network):

零售商利用自家收集的第一方數據,吸引廠商贊助、投放廣告,將品牌網站或App發展成廣告平台,
例如:instagram﹑Facebook等社交平台上有很多廣告主會在上面推播。
同樣的,Amazon﹑Walmart等零售業線上網站上也會有很多版位是針對使用者個人在做廣告觸及。
  • 背景:因全球網路使用者更加注重隱私權,不僅Google宣布2024年前禁用第三方Cookie,蘋果iOS系統也陸續祭出各式的用戶資料共享限制,透過「應用程式追蹤透明度(ATT)」政策,限制應用程式商追蹤用戶行為、搜集相關數據的能力[1],使用Cookie辨識使用者的方式越來越不可靠,零售業者更趨向自己建立網站蒐集使用者數據。
    下圖所示,可發現Retail Media的花費金額逐年成長﹑數位廣告媒體的佔比也逐年升高,而成長率漸漸下降,呈現Retail Media的經營是很值得投入的。
(Source:What you need to know about retail media in 5 charts)
  • 方法:
    1. 建立Retail Media Network,做到線上(自家電商網站及APP版位的展示型廣告﹑搜尋曝光廣告)及線下(實體量販店電子看板廣告﹑櫥窗置版位)推播,讓廣告無所不入﹑雙邊進行滲入消費者的生活中,以增加更多消費營利,讓消費者看到商品的機會大大增多。
    2. 設置PoS and DataShopper Service,蒐集全球家樂福銷售數據並做資料分析,提供更多對於市場insight及趨勢的剖析。
Carrefour LINKS website screenshot (Source:Carrefour LINKS)
Carrefour LINKS website screenshot (Source:Carrefour LINKS)

Data Warehouse 2.0

🌆Background:

因全球更加重視隱私權,歐盟不希望人民的個人資訊﹑消費數據等跨國傳送,會增加資訊安全疑慮的可能。
而家樂福為跨國公司,加上舊有Data Warehouse經手多人多部門建置,系統架構複雜﹑維護不便等問題,
因此著手重整,將整個Warehouse全部搬上雲端GCP Service,不僅優化執行流程,刪除多餘無使用服務﹑
重複系統,也清整還原過去不完整的資訊。

最後梳理約200條ETL﹑Reporting M約5000張報表﹑Reporting W約50張報表。

<Case 1> Stockout Recommendation

  • 問題:解決缺貨狀況下的推薦
    <以消費者角度出發> 若商品缺貨狀況發生在購物車頁面,則商品會直接被刪除 ; 發生在商品頁面,可點擊貨到通知或自行退出頁面搜尋其他類似商品。
    <以資料角度出發> 過去建立的推薦系統主要是cookie based,但因為cookie即將被sunset,需要有其他替代方案。
  • 方法:解決缺貨狀況下的推薦
    <以消費者角度出發> 若發生商品缺貨情形,可直接點擊缺貨推薦,讓消費者可以接收到和原缺貨商品類似或相關的商品,以解決消費歷程中斷的狀況,完整消費的體驗,也防止商家因中斷而導致的銷售損失。
    <以資料角度出發> 推薦系統改為product content based,將product content用BERT[2]轉換成embedding計算個商品的相似程度,並針對各顧客做更個人化的推薦。
💡BERT(Bidirectional Encoder Representations from Transformers):

BERT是一自然語言處理的育訓練模型,擅長解決語意理解(Natural Language Understanding, NLU)的問題,
可完成的任務型態很多種,包含Sequence Classification(序列分類)﹑Summarization(段落摘要)﹑
Token Classification(單句分類)﹑Question Answering(擷取式問答)等多種應用。
  • 結果:
    <Cart Page> 在所有購買商品遇到缺貨狀況的消費者中,共有16.67%的消費者有使用了缺貨推薦的功能。
    <Cart Page> 並且在16.67%使用缺貨推薦功能的消費者,有33.33%的消費者是有繼續完成消費行為的(將缺貨推薦的商品加入購物車並購買)。
    <Cart Page> 增加了缺貨推薦的功能後,對比先前直接中斷消費者消費歷程的行為,挽回了20%的銷售損失。
    <All Page>
    在所有完成消費行為的消費者中,使用缺貨推薦功能的對比未使用的,平均客單價更是多出了1.46倍。→使用缺貨推薦可以提升消費者的平均客單消費額。

「Conclusion」

🛠數據應用重構生活:

Data Warehouse → BI(Business Intelligence) → AI(Artificial Intelligence)
Foundation → Connection → Application

所有的數據應用都要先有Foundation,以家樂福為例就是上述一直提到的Data Warehouse,蒐集了不管消費者﹑商家﹑商品資訊等的主體資訊,也有了購買歷程﹑消費偏好習慣等的輔助資訊,需要有效的儲存﹑清整及記錄,如此龐大的數據才會是可升值的資產。

Foundation越加深後,數據需要有可連結的對象,對家樂福來說,最終目標無疑是降低成本﹑提高顧客黏著度﹑增加收益等,資料就可和廣告﹑行銷等跨部門做後續討論。

有了Connection,Data即可協助分析,作為嘗試方法的數據論證,協助在商業上解決問題,不管是上述提到的廣告媒體選擇﹑缺貨狀況的解決﹑分眾行銷策略的制定等,都是可以有效提升營運的。

(Source:WiDS 2023)

「Q & A」

  1. Q:零售業的數據非常龐大,是否有覺得特別有趣的行銷insight可以和大家分享,例如:Walmart有發現顧客購買尿布完滿高機率會接著購買啤酒。
    A:Pei主持的team較與AI相關,家樂福另有負責BI的team,因此多數的工作項目為針對某問題提出解決方案,利用雲端服務建置模型並預測等,針對data分析都已於簡報中和大家分享。
  2. Q:分享的案例多與線上平台有關,是否有更多數據應用於線下服務的案例可以舉例?
    A:線下的數據因為公司營運多年,過去的資料很多可能不是格式化或有效地在儲存,當前也很難立即更改第一線服務人員運營的方式,因此線下的服務還偏向在Connection的階段,但是是家樂福一直在處理的問題。
  3. Q:跨國的專案在執行時,會有很多的資訊溝通﹑技術執行方法落差等,請問執行時遇到了哪些問題,當時是怎麼解決的?
    A:跨國的專案主要不是Pei在主導的,但可以分享一下協作的方法。執行專案時可以不制訂一定的處理方法,只需訂出需完成的目標項目,並且成果為何,最後設立多層檢驗機制確定個別的項目可以做合併即可。
  4. Q:求職時,數據應用相關的工作內容不會直接提出某策略,或是為真實執行某策略的主導方,比較偏向驗證或是分析成果以供參考,在履歷上應該如何呈現自己完成的項目?
    A:認為不一定需要提供成效(例:過去建立的Dashboard成功提升20%營收 …..?),不過最後建立的模型預測成果﹑分析檢驗等需要有後續作為,對於該次的專案最後做了怎麼樣的策略調整等。
  5. Q:實驗結束後除了實驗組及對照組的比較外,會再做A/A testing嗎?有的話會不會專案週期拉得很長?
    A:Team比較偏向multi-task的工作模式,因同時間會有多個專案在作業,所以在執行專案的策略會偏向最小可行性方案。不會追求使用最新演算法,也不會將實驗流程設計過於複雜,只會使用簡單﹑快速的方法,並具有可解釋性讓業務端可以理解,不過在實驗結束後,會分析檢討流程中不太合理或是可優化的程序。
  6. Q:在做Data Warehouse 2.0的架構搬移時,有提到Shift & Lift成本龐大,為什麼會說使用雲端服務可以減輕成本?
    A:提到的並非雲端服務減輕成本。不過GCP仍然有非常多的益處,可更有效的控管資料,也減少許多維護成本。
  7. Q:在做Data Warehouse 2.0的架構搬移時,需要了解非常多過去編寫過的程式碼,請問在了解程式碼後,是否有再做其他的code-refactor?
    A:因為專案涉及重建,已做過code-refactor。
(Source:WiDS 2023)

--

--

Yasmine Cheng
Taiwanese in Data Science

NLP Lab @ SCU | Data Science | to be a nlper 💻 Linkedin:Ya Mian(Yasmine) Cheng Github:Yasmine-Cheng