二因子變異數分析 — Python實戰：商務資料結構整理(附Python程式碼)

徐子皓 Nash Xu

Published in

Marketingdatascience

Dec 7, 2020

在之前的文章中，我們有分享了單因子變異數分析的應用，並了解了不同廣告之間所帶來的平均消費金額。

今日的文章，我們將繼續使用「consumption.csv」(點我下載)中完整的要素欄位來做二因子變異數分析。

單因子變異數分析系列文章看這裡：
單因子變異數分析 — Python實戰：商務資料結構整理（附Python 程式碼）
單因子變異數分析 — Python實戰：如何決定多廣告的優化策略？(附Python 程式碼)

二因子變異數分析是什麼呢？

二因子變異數分析用於探討兩變數在依變數上的影響，比起單因子變數又有更多不同的可能性，分析過程也更為複雜。本篇文章將利用分析資料集中的「廣告」跟「地區」兩個變數進行交互分析，了解不同情形下對消費金額的影響。

接著一起來實作吧！

一、讀取原始資料

首先，將原始資料讀取進來，如程式碼1所示。

程式碼1：

import pandas as pd
data = pd.read_csv('consumption_data.csv', encoding = 'big5')

產出：

二、檢查是否有空值

為了避免資料有空值而影響分析結果，我們將透過程式碼2來檢查檔案，若有資料缺失執行結果會回報為True，以確保資料完整性。

程式碼2：

data.isnull().any()

產出：

地區      False
廣告      False
消費金額    False

三、資料分類

確認完資料沒有缺漏後，便可以將資料分類成可供分析的資料了。

透過程式碼3，先將資料按照「廣告」分類，如下所示：

程式碼3：

alist = data[data ['廣告'] == '廣告1']['消費金額'].tolist()
blist = data[data ['廣告'] == '廣告2']['消費金額'].tolist()
clist = data[data ['廣告'] == '廣告3']['消費金額'].tolist()

產出如下不同廣告的消費金額表：

隨後，再將資料透過「地區」，將廣告另外分成三類，如程式碼4所示：

程式碼4：

dlist = data[data ['地區'] == '北部']['消費金額'].tolist()
elist = data[data ['地區'] == '中部']['消費金額'].tolist()
flist = data[data ['地區'] == '南部']['消費金額'].tolist()

產出不同區域的金額表：