單因子變異數分析 — Python實戰：商務資料結構整理(附Python程式碼)

徐子皓 Nash Xu

Published in

Marketingdatascience

Dec 2, 2020

本篇文章要繼續和大家分享統計方法在數據分析的應用!!
今日要和大家分享的是單因子變數分析。單因子變異數分析多用來分析多組樣本，比較各組間的平均數差異，譬如分析資料集中「廣告」此單一變項，在不同區域當中對於消費者的消費金額是否有顯著差異。

而本次所使用資料集為某廣告商在不同地區推廣不同廣告後，所得到的消費金額中，取樣360筆作為本章節所使用的資料集－「consumption.csv」。

一、讀取原始資料

首先執行程式碼1，將「consumption.csv」(點我下載)讀取進來，如下所示：

程式碼1：

import pandas as pd
data = pd.read_csv('consumption_data.csv', encoding = 'big5')

產出：(如圖1所示)

該資料的詳細的內容如下：

1. 地區：廣告推播的地區，分為北、中、南部。

2. 廣告：使用的廣告種類，分為廣告1、廣告2、廣告3。

3. 消費金額：消費者花費的金額(美金)。

二、檢查是否有空值

為了避免資料有缺漏而影響分析結果，可以透過程式碼2來檢查檔案，若有資料缺失執行結果會回報為True，已確保資料完整性。

程式碼2：

data.isnull().any()

產出：

地區        False
廣告        False
消費金額      False

三、資料分類

確保完資料的完整性之後，接下來就可以將資料分類成可作為分析之資料了，由於本單元為單因子變異數分析之教學，只會先用到「廣告」這一個變數，加入「地區」之後的分析則會在多因子變異數分析的單元為讀者們做進一步分析。

執行程式碼3，將資料透過廣告類別分成三類之後，資料前處理就大功告成了。

程式碼3：

alist = data[data ['廣告'] == '廣告1']['消費金額'].tolist()
blist = data[data ['廣告'] == '廣告2']['消費金額'].tolist()
clist = data[data ['廣告'] == '廣告3']['消費金額'].tolist()

產出：(如圖2、3、4所示)

下篇文章我們將利用這三個整理好的資料，比較不同廣告對於消費者的消費金額是否有顯著差異。

完整程式碼：https://reurl.cc/gmDdOX

作者:徐子皓(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人）

— — — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔，喜歡我們就趕緊追蹤吧！

同時再請大家多多follow我們的FB粉絲專頁，我們會在粉專上即時公布最新資訊，讓您重要消息不漏接！

◼ FB粉絲專頁：行銷資料科學

◼ 官網：臺灣行銷研究

臺灣行銷研究有限公司

臺灣行銷研究為首家將行銷全方位策略結合程式應用及統計分析知識，發展行銷資料科學！我們以學術期刊為研究之根基,以資料科學為數據驅動之導向。掌握最新、最實用工商業技術，…

tmrmds.co