購物籃分析(Market Basket Analysis)的四種指標 — 用簡單的條件機率來找到原來啤酒和尿布一起賣得很好

JC Chang
Oct 12, 2020

--

我們都知道咖啡和糖是互補品,但是咖啡和茶是替代品。

Market Basket Analysis 主要是用系統性的方法來找到如何 up-selling 或是說 cross selling 的商品組合。

Photo by David Veksler on Unsplash

其中常見的有三個指標Support , Confidence ,Lift

以下用案例來舉例: 假設我們有五筆交易資料,如下

Support : P(BA)

AB 一起發生的機率

symmetric : P(BA) = P(AB)

無法處理的問題 : 如果其中一個產品 A (Milk) 很熱門,大家都買A,P(A) 接近 1 時 , Support P(BA) 就沒有什麼用了。

例如同時買牛奶和啤酒的機率為40%,即使Support 很高但是卻沒有什麼用。

Confidence : P (B|A)

B在A發生的條件下發生的機率

asymmetric : P(B|A) = P(AB)/P(A)

無法處理的問題 : 可能比隨機發生的機率還低沒有 cross-selling 的價值

例如在所有買冰淇淋當中的人會買果汁的機率為33%,但其實賣果汁的機率本來就有60 %了。

Lift : P(B|A)/P(B)

(also called improvement or impact)

相對於隨機的B , 在A發生的條件下, 發生B的倍率

symmetric : P(B|A)/P(B) or P(AB)/[P(A)P(B)].

  • 如果 A , B 是獨立事件 , 則 P(AB) = P(A)P(B)
  • Lift > 1 代表 A, B 互相吸引 ; Lift < 1 則否

無法處理的問題 : 如果A或是B發生的機率很小的話, Lift 很大影響力也不夠

例如買了冰淇淋後買啤酒的Lift 為 1.67 ( 66% / 40% = 1.67) 代表買過冰淇淋的人,會買啤酒的機率比隨機購買啤酒高 1.67倍。這是個很有用的指標但如果A 發生的機率很低的話,在這裡的例子是啤酒,即使Lift 很高也沒有商業價值。

所以一般來說做cross-selling 時都會同時看這三個指數,我們會希望得到這三個指標都是高的商品組合,各實務上來說常常會設定各一個門檻值來找出合適的商品組合。

比起同時看三個指標,Zhang 在2000年提出了一個指數,課本上就叫他Zhang指標

Association and Dissociation : P(B ⇒ A)

(Zhang 在2000提出 的指數 , called B implies A)

如果 A在B發生的條件下發生的機率 大於 A在沒有B發生的條件下發生的機率 那就是 Association, 反之則為 Dissociation

asymmetric

當有三種極端值時(perfect association, perfect disassociation, and random or independent association)Zhang 的方法都可以有效地處理, 而且解釋的方式和相關係數類似

數學式看起來有點複雜但其實很簡單,例如買了啤酒的人會買冰淇淋的機率為1 ,P(ice cream|beer) = 1,不買啤酒的人會買冰淇淋的機率為 1/3 ,P(ice cream|not beer) = 1/3,所以Zhang指數就是 2/3 。

參考資料 : Database Marketing by Blattberg, Robert C., Kim, Byung-Do, Neslin, Scott A.

--

--

JC Chang

Performance ad optimizer, data analyst, free diver, snow boarder…