你怎麼處理顧客交易資訊?Apriori演算法

行銷資料科學
Marketingdatascience
10 min readJan 11, 2019

在電腦科學以及資料探勘領域中,Apriori 演算法是「關聯規則學習」或是「關聯分析(Associative Analysis)」的經典演算法之一,目的是在一個資料集當中,找出不同項與項之間可能存在的關係。而在行銷資料科學領域,它有個很特別的名字,被稱為「購物籃分析 (Market Basket analysis)」,也跟我們先前提過的啤酒與尿布的故事有關。

關聯分析的概念是由Agrawal et. al. (1993) 所提出,隨後,Agrawal & Srikant (1994) 進一步提出 Apriori演算法,以做為關聯法則之工具。關聯分析主要透過「支持度」(Support)與「信賴度」(Confidence)來對商品項目之間的關聯性,進行篩選。其中,支持度(Support)意指即某項目集在資料庫中出現的次數比例。例如:某資料庫中有100筆交易紀錄,其中有20筆交易有購買啤酒,則啤酒的支持度為20%。信賴度(Confidence)意指兩個項目集之間的條件機率,也就是在A出現的情況下,B出現的機率值。

在進行關聯分析時,我們通常會先設定最小支持度(Min Support)與最小信賴度(Min Confidence)[1]。如果所設定的最小支持度與最小信賴度太低,則關聯出來的結果會產生太多規則,造成決策上的干擾。反之,太高的最小支持度與最小信賴度則可能會面臨規則太少,難以判斷的窘境。

以下我們以一個採購資料庫的範例來進行說明,如表1所示。編號1的顧客購買了啤酒、尿布、水果、奶粉產品,編號2的顧客購買了啤酒、水果、奶粉的產品,以此類推。

[1] 另外還會考量第三項「提升度」(lift)。lift(X->Y) = P(Y|X)/P(Y) = conf(X->Y)/P(Y),lift越大(>1): 表示X對Y的提升作用越大。在此不做詳細的說明。

表1採購資料庫

為了計算方便,我們將啤酒設定為A、尿布設定為B、水果設定為C、餅乾設定為D,奶粉設定為E,如表2所示。

表2 採購資料庫

接著,我們可以從採購資料集中整理出每個產品的出現次數與支持度,如表3所示。

支持度為某項目集在資料庫中出現的次數比例,以此案例中的D為例,總交易筆數4筆,D出現1次,所以支持度為25%,以此類推。

同時,我們假設建議此關聯模式的最低支持度(Min Support)為50%,因為採購比數有4筆,所以4*50%=2,2筆以上的項目就稱為高頻項目集(Large itemset),應該予以保留。反之,表中的D,支持度不到50%,未達最低支持度的要求,因此予以捨棄。

表3 每個產品項目的出現次數、 表 4 每兩個產品項目的出現次數

接著,開始進行第二次的掃瞄。整理出扣除D產品項目後,其他產品兩兩出現的次數,如表4所示。

同時,根據最低支持度的要求,捨棄次數未達2次的兩兩出現的產品項目AE。接著,再進行第三次的掃瞄。經過掃描後發現,只有BCE三種商品還同時出現,而且次數為2次,如表5所示。

表5 三種產品項目的出現次數

最後,再將以上三個表作彙整,找出支持度超過50%的項目集。並將其子集合刪除(如{B,C,E}的子集合為{B,C}、{B,E}、{C,E}),所以縱使子集合超過最低支持度的要求,一樣可以捨棄。所以,最終的高頻項目集(Large itemset)如表6所示,此即為關聯分析的結果。

表6 三種產品項目的出現次數

從以上的表中我們可以發現,A(啤酒)與B(尿布)之間存在著關聯規則。

此外,如果我們從項目集的機率值來看。AB、AC與BCE的機率值如表7所示。

表7 項目集關聯機率值 ;繪圖者:張庭瑄、張珮盈

表7的A->B指的是,在A出現的情況下,B出現的機率。

公式為P(B|A)=P(A∩B)/P(A)。

從表8的採購資料庫中可發現:

P(A∩B)為2/4=0.5(總交易次數為4次,同時出現A與B的次數為2次)

P(A)為2/4=0.5(總交易次數為4次,A出現的次數為2次)

所以P(B|A)=P(A∩B)/P(A)=0.5/0.5=100%。

而B->A是指,在B出現的情況下,A出現的機率。從表11–16中可發現,B共出現4次(P(B)=4/4=1),而B與A同時出現為2次(P(B∩A)=2/4=0.5),所以機率值為P(A|B)=P(B∩A)/P(B)=0.5/1=50%。

表8 採購資料庫

假設信賴度為70%,從表11–15中可以發現,AB中的A->B,AC中的A->C,與BCE中的E->BC、BE->C與CE->B,機率值都是超過信賴度70%的100%,表示三項規則都滿足所設定的條件。

好了,現在你應該知道「購物籃分析」很貼切的表達,適用這項演算法情景中的一個子集。「尿布與啤酒」的故事,美國的婦女們經常會囑咐她們的丈夫下班後,幫孩子買些尿布回家,而丈夫通常在買完尿布後,則順手買回自己愛喝的啤酒,因此啤酒和尿布在一起被購買的機會很多。賣場因此將尿布和啤酒擺在相鄰的附近,使得尿布和啤酒的銷量雙雙增加,這樣的關連規則常被商家津津樂道。

羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

註:

看到Apriori這個字,一般人查了字典,都會查到與拉丁文「a priori」有關,而「a priori」中文叫做「先驗」,於就跟著把它翻譯成「先驗」,然而「先驗」又是什麼?進一步再查了教育部國語辭典,先驗主義是與經驗主義相對的說法,先驗即「先於經驗」,主張無需經驗或先於經驗可以獲得知識的哲學思潮。那Apriori 演算法跟「先於經驗」有什麼關係呢?老實說,我們也去查了原文,原文裡可是一點兒都沒有講到,因此我們懷疑有可能是誤譯,翻譯成「亞皮歐利」演算法可能還讓人不會那麼莫名其妙。或許也有其他學者能幫大家解釋一下囉。

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

消費者心理模式的演進與發展-從AIDA到AIDEES

在消費行為中,消費者的購買路徑並非全然不可預測,它是重複發生、有跡可循的。基本上,企業可以根據行銷活動的實踐過程和消費者購買活動的心理演變等,來推論顧客的購買路徑,藉此導出一套具有高度可操作性,且可提升行銷效率的步驟。

圖、AIDA、AIDMA、AISAS詳細圖。

學界對購買路徑頗有興趣,多年也不斷推導、修正,並發表多種路徑模式,從AIDA開始,接著又有AIDMA、AISAS及AIDEES消費者心理模式問市,以下為大家一一介紹:

AIDA在1870年代提出,是最早形成的模式,其中A,代表認知(Attention),它指的是一個好的推銷或宣傳,吸引潛在消費者開始注意某產品或品牌;I則意味興趣(Interest),是消費者接收到企業傳達的訊息後,激起他們的興趣和認同;D,則是慾望(Desire),消費者對企業所提供的利益,激發購買該產品的慾望;A則是行動(Action)行動,這是購買行為最重要的一環,係指潛在消費者經歷各階段後採取購買行動。

AIDMA大約在1920年首次由學者羅蘭‧霍爾(Roland Hall)提出,比AIDA模式多了一個M(Memory)記憶,指消費者提到該產品會立即聯想到某些記憶或印象,如:斯斯感冒膠囊(感冒用斯斯,咳嗽……)。其中A,代表注意(Attention),它指的是一個好的推銷或宣傳,吸引潛在消費者開始注意某產品或品牌;I意味興趣(Interest),是消費者接收到企業傳達的訊息後,激起他們的興趣和認同;D,表示慾望(Desire),消費者對企業所提供的利益,激發購買該產品的慾望;A則是行動(Action),這是行銷活動中最重要的一環,係指潛在消費者經歷各階段後採取購買行動。

AISAS則於2004年由日本「電通公司」所提出的另一個消費者行為分析模型。隨著網路日漸普及,消費行為也跟著轉變,因此更符合時代的消費者行為模式出現。其中A,代表注意(Attention),它指的是一個好的推銷或宣傳,吸引潛在消費者開始注意某產品或品牌;I則意味興趣(Interest),是消費者接收到企業傳達的訊息後,激起他們的興趣和認同;S,則是搜尋(Search),消費者有興趣以後由被動轉為「主動」搜尋產品;A,表示行動(Action),做完一系列的評比以後消費者決定購買該產品;S則是分享(Share),將使用產品後的心得發至社群平台,讓其他有意願的消費者可以參考。

AIDEES在2006年提出,模式就更複雜了,A,代表注意(Attention),它指的是一個好的推銷或宣傳,吸引潛在消費者開始注意某產品或品牌;I則意味興趣(Interest),是消費者接收到企業傳達的訊息後,激起他們的興趣和認同;D,表示渴望(Desire),當消費者進一步去了解產品以後,更渴望能將商品帶回家;E意味體驗(Experience),當消費者購買產品以後,立即享受它帶來的新體驗;E,表示熱情(Enthusiasm),消費者十分喜愛產品,並對它情有獨鍾,充滿熱情;S則是分享(Share),由於有了非常棒的購買體驗,因此消費者樂於在社群網站(如部落格等)上發文和大家分享使用心得。

從四個模式的演進,我們可以發現,過去AIDA及AIDMA模式是行銷人揭露產品資訊,現在的AISAS及AIDEES模式則為消費者積極搜尋評價、主動分享使用心得。相較於傳統的B2C(企業對消費者),現行的C2C(消費者對消費者)模式可能讓目標受眾更能接受,也更願意相信現實的用戶體驗,進而使花錢購買的顧客明顯增加,因此企業在做決策時,不妨參考以上各種行為模式,整合出一套適合自己公司的發展模型。

作者:陳宣廷(臺灣行銷研究特約編輯)、蘇宇暉(台科大管研所博士候選人)

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR