二因子變異數分析 — Python實戰:商務資料結構整理(附Python程式碼)

在之前的文章中,我們有分享了單因子變異數分析的應用,並了解了不同廣告之間所帶來的平均消費金額。

今日的文章,我們將繼續使用「consumption.csv」(點我下載)中完整的要素欄位來做二因子變異數分析。

單因子變異數分析系列文章看這裡:
單因子變異數分析 — Python實戰:商務資料結構整理(附Python 程式碼)
單因子變異數分析 — Python實戰:如何決定多廣告的優化策略?(附Python 程式碼)

二因子變異數分析是什麼呢?

二因子變異數分析用於探討兩變數在依變數上的影響,比起單因子變數又有更多不同的可能性,分析過程也更為複雜。本篇文章將利用分析資料集中的「廣告」跟「地區」兩個變數進行交互分析,了解不同情形下對消費金額的影響。

接著一起來實作吧!

一、讀取原始資料

首先,將原始資料讀取進來,如程式碼1所示。

程式碼1:

import pandas as pd
data = pd.read_csv('consumption_data.csv', encoding = 'big5')

產出:

圖 1 原始資料示意圖

二、檢查是否有空值

為了避免資料有空值而影響分析結果,我們將透過程式碼2來檢查檔案,若有資料缺失執行結果會回報為True,以確保資料完整性。

程式碼2:

data.isnull().any()

產出:

地區      False
廣告 False
消費金額 False

三、資料分類

確認完資料沒有缺漏後,便可以將資料分類成可供分析的資料了。

透過程式碼3,先將資料按照「廣告」分類,如下所示:

程式碼3:

alist = data[data ['廣告'] == '廣告1']['消費金額'].tolist()
blist = data[data ['廣告'] == '廣告2']['消費金額'].tolist()
clist = data[data ['廣告'] == '廣告3']['消費金額'].tolist()

產出如下不同廣告的消費金額表:

圖2. 廣告1的消費金額表-alist
圖3. 廣告2的消費金額表-blist
圖4. 廣告3的消費金額表-clist

隨後,再將資料透過「地區」,將廣告另外分成三類,如程式碼4所示:

程式碼4:

dlist = data[data ['地區'] == '北部']['消費金額'].tolist()
elist = data[data ['地區'] == '中部']['消費金額'].tolist()
flist = data[data ['地區'] == '南部']['消費金額'].tolist()

產出不同區域的金額表:

圖5. 北部的消費金額表-dlist
圖6. 中部的消費金額表-elist
圖7. 南部的消費金額表-flist

下一篇文章,我們將利用這六個整理好的資料,比較不同廣告對於消費者的消費金額是否有顯著差異。

喜歡我的文章,請給我繼續往下分析的動力,
我會儘快和大家分享的我的產出結果!!

完整程式碼:https://reurl.cc/m9rL5G

作者:徐子皓(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)

— — — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--