單因子變異數分析 — Python實戰:商務資料結構整理(附Python程式碼)

本篇文章要繼續和大家分享統計方法在數據分析的應用!!
今日要和大家分享的是單因子變數分析。單因子變異數分析多用來分析多組樣本,比較各組間的平均數差異,譬如分析資料集中「廣告」此單一變項,在不同區域當中對於消費者的消費金額是否有顯著差異。

而本次所使用資料集為某廣告商在不同地區推廣不同廣告後,所得到的消費金額中,取樣360筆作為本章節所使用的資料集-「consumption.csv」。

一、讀取原始資料

首先執行程式碼1,將「consumption.csv」(點我下載)讀取進來,如下所示:

程式碼1:

import pandas as pd
data = pd.read_csv('consumption_data.csv', encoding = 'big5')

產出:(如圖1所示)

圖 1 原始資料示意圖-consumption.csv

該資料的詳細的內容如下:

1. 地區:廣告推播的地區,分為北、中、南部。

2. 廣告:使用的廣告種類,分為廣告1、廣告2、廣告3。

3. 消費金額:消費者花費的金額(美金)。

二、檢查是否有空值

為了避免資料有缺漏而影響分析結果,可以透過程式碼2來檢查檔案,若有資料缺失執行結果會回報為True,已確保資料完整性。

程式碼2:

data.isnull().any()

產出:

地區        False
廣告 False
消費金額 False

三、資料分類

確保完資料的完整性之後,接下來就可以將資料分類成可作為分析之資料了,由於本單元為單因子變異數分析之教學,只會先用到「廣告」這一個變數,加入「地區」之後的分析則會在多因子變異數分析的單元為讀者們做進一步分析。

執行程式碼3,將資料透過廣告類別分成三類之後,資料前處理就大功告成了。

程式碼3:

alist = data[data ['廣告'] == '廣告1']['消費金額'].tolist()
blist = data[data ['廣告'] == '廣告2']['消費金額'].tolist()
clist = data[data ['廣告'] == '廣告3']['消費金額'].tolist()

產出:(如圖2、3、4所示)

圖 2 廣告1的消費金額表-alist
圖 3 廣告2的消費金額表-blist
圖 4 廣告3的消費金額表-clist

下篇文章我們將利用這三個整理好的資料,比較不同廣告對於消費者的消費金額是否有顯著差異。

完整程式碼:https://reurl.cc/gmDdOX

作者:徐子皓(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)

— — — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--