莫再提了!啤酒尿布是都市傳說

台灣某知名超市,啤酒旁邊很直覺的放了零食。那尿布旁放什麼呢?文末解答

資料分析領域流傳這麼一則故事:

某家超市(大多時候是 Walmart)使用某種分析方式(大多時候是關聯分析)分析資料庫資料,發現每週五晚上啤酒與尿布銷量有正向關聯性。
原因是星期五晚上年輕父親會幫家裡買尿布,並順便為週末球賽買啤酒。

這個故事常被引用來強調資料分析的價值。但事實上源頭難以考究, Google 也只會告訴你各種版本的都市傳說。

Google 第一頁沒有一篇文章告訴你正確資訊

但若用英文 「beer diapers」搜索,第一頁前幾篇文章會告訴你這個故事不太可靠。

所以這故事是假的?

是,也不是。

2002 年, 北愛荷華大學教授 Daniel J. Power 做了一份考察,如果讀者英文還行,建議直接看原文。提到啤酒尿布的英文文章大多會附上這份考察連結。

在該文中,作者描述當時他也聽過一個版本的故事,並且偶爾會轉述給其他人聽。在 2002 年七月,他看了一份 Teradata 歡慶啤酒尿布研究 10 週年的網路直播錄影。

在錄影中 Thomas Blischok 講述他在 1992 年協助 Osco Drug 做資料探勘的專案,分析代表 25 家門市,120 萬筆購物車結帳記錄。 Blischok 宣稱,團隊的確發現在下午五點到七點間,消費者會買啤酒與尿布。這樣的洞見在當時確實是外星科技,但他說這個關聯性並非最具革命性的改變。當時 Osco 的管理團隊學到,以消費者偏好為核心去設計店面是可行的。結果是, Osco 並沒有為啤酒與尿布的關聯性做任何事情。

然而,並非所有人都同意 Blischok的說法。

1998 年末 John Earle 在部落格(原文已找不到)提到,他曾在 Teradata 工作並參與 Osco 的專案,尋找交易記錄的近似性。團隊建議試著移動商品在店裡的位置來實驗看看移動會不會影響近似性。但團隊「英勇」的領導 Blischok 在媒體上發表時並沒有區分假設與真實實驗結果。 Earle 表示,團隊必須兜售他們開發的系統的價值,有時,事實和都市傳說的界線會很模糊。

在 2000 年, HP 實驗室的 Tom Fawcett 在知名資料探勘新聞網 KDnuggets 發了篇文章,從第三手轉信中揭露更多。信中記載,Blischok 帶著半打當時很潮的 SQL 高手,試著用 SQL 查詢從資料中找出近似商品。他們找到了「化妝品與賀卡」關係以及其他關係。由於 Blischok 在之後想說服商家儲存商家自己的交易資料,以利後續分析,因此他需要一個夠噱頭的例子。於是 Blischok 發明了「啤酒與尿布」這個說法。 Power 表示,就他所知, Blischok 團隊所分析的資料從來沒有支持過該說法。

同年, Ronny Kohavi 也在 KDnuggets 發文,他找到 Blischok 團隊中跑 SQL 查詢的 K. Heath 。 K. Heath 在 1990 年跑 SQL self join ,嘗試任兩組有包含嬰兒用品的商品集,看看是否有明顯獲利。在 50 分店,一天的資料,他發現啤酒與尿布的規律。 K. Heath 表示,這規律很有趣但並不顯著

Power 總結,在 1992 年 Teradata 零售顧問團隊經理 Thomas Blischok 與他的同事們分析 Osco Drug 25 店家、 120 萬筆結帳資料。分析結果「的確」發現「五點到七點消費者買啤酒與尿布」,但 Osco 管理階層並未使用啤酒尿布關係來移動商品。這個分析也只是用 SQL 查詢指令來找關聯性。就 Power 的說法,真實故事比起傳說十分枯燥乏味。

結論

在 Tom Fawcett 的文章中,引述 Mark Twain 的「Never let truth get
in the way of a good story.」,意為別讓真相壞了一則好故事。

這句話也許對小說家是成立,但對做教育、做商業、做工程的人來說,故事得要有憑有據才有參考價值。

科技狂熱無時無刻都在發生,在 2016 年的今天與 26 年前的 1990 年代,為了推銷技術而誇大事實的情節幾乎一模一樣。

但人類總是要進步的,吹夢也得推陳出新。在 2016 年我們有不少公司,在資料分析與應用有太多輝煌事蹟能講。爺爺時代不明不白的軼事也該隨風而去了。

答案揭曉:放洗手乳

參考資料

Daniel J. Power 的考察

關於 Daniel J. Power

Tom Fawcett 在 KDnuggets 的文章

Ronny Kohavi 在 KDnuggets 的文章