【Excel】統計概念介紹
非常榮幸邀請到 Tim 為我們上 Excel 專題課程, Tim 跟大家簡介了幾個重要的統計概念,並利用「銷售資料 」資料集帶領大家實際利用 Excel 進行分析。如果你對於今天的主題有興趣的話就一起看下去吧!
本篇文章 key takeaway:
- 簡單統計觀念介紹,入門或 recap 都必讀!
- 學習使用 Excel 進行 t-test 與 ANOVA 分析
- 迴歸分析與相關分析之差別與執行
講師介紹:
郭俊東(Tim),臺大健康政策與管理研究所博士,曾任哈佛大學公衛學院博士後研究員,專長教學論文寫作、統計學及統計軟體,現為國防醫學院兼任教師。
統計概念
Tim 利用「銷售資料」資料集帶我們練習用 Excel 執行「t-test」以及「ANOVA」分析。
在進入實作前,我們先來簡單複習一下統計概念!
在統計學的世界中,分成:描述性統計及推論性統計。
描述性統計又稱敘述統計,它的意義是將樣本的大量資料進行整理與計算,用來描繪該樣本所呈現的基本現況,包含資料的次數、集中的趨勢、離散的程度、資料的分佈以及統計圖呈現,舉例來說,Tim 先前教大家製作的樞紐分析圖,即屬於描述性統計的範疇。
而推論性統計的主要功能是利用觀察數量有限的樣本,來推論「母體」樣貌,像是:利用投票前的民意調查來推估最後大選結果、產品正式推出前的小規模試用反饋推估最後商品是否受歡迎,都是推論性統計的例子。
但推論性統計的種類繁多,介紹下來會有點離題,這邊提供大家推論性統計懶人包(附圖於下方),有興趣的朋友可以再自行深入研究!
我們接下來帶大家一起用 Excel 進行兩種不同的推論性統計分析—— t-test、ANOVA。
另外要特別說明的是,因為 Excel 不是專門的分析工具,所以在分析前要先整理資料格式,之後才方便我們作業,在下面示範的作法是直接複製兩個組別的銷量到新工作表進行分析。
T-test
T-test 主要用來比較兩組樣本的平均值是否有差異,這邊利用用戶分群後的 A/B test 結果來進行分析,要看 A、B 兩方案成效何者勝出。
一般而言,在 t-test 前會先用 F-test 來檢定兩個樣本的變異數是否相等,但在這次的分析中,我們暫時先假設變異數相等以進行後續的 T-test。
步驟一、點選「資料」中的「資料分析」,選取「t 檢定:兩個母體平均數差的檢定,假設變異數相等」
變數範圍分別填入 A、B 兩組的銷售數值欄位
步驟二、得到 t-test 分析結果,並進行判讀
因為資料分析顯示 p 值為 4.32511E-61,代表 p 值非常小,而常用的顯著水準為 0.05,表示 T-test 分析結果達到顯著水準, A、B 兩組的消費金額在統計上有顯著差異。
步驟三、利用樞紐分析將 A、B 兩組的銷售量製成圖表
製成圖表後可以更明確看出 B 方案的成效更好,後續在進行決策時,圖表提供更直接明確的證據可以依循。
ANOVA
ANOVA 用於比較多組之間的平均數差異,若組別差異顯著的話,則會進行事後比較,確認各組的差異情形。
跟 t-test 不同的是,t-test 只能比較兩組樣本平均值,而 ANOVA 可以比較多組樣本平均值的差異。
因為我們這次分析是針對會員等級(普通、黃金、鑽石),只有一個自變項,所以選擇使用「單因子」變異數分析(One-way ANOVA)。
由於 ANOVA 分析過程與上面的 T-test 雷同,都是先進行資料分析、觀察資料組別間是否存在顯著差異、確認差異狀況、最後製圖呈現。所以這邊提供初始資料分析步驟,後面的過程可以直接參照 T-test。
ANOVA 資料分析路徑:
點選「資料」中的「資料分析」,選取「單因子變異數分析」
注意:「資料分析」在「資料」選項的「分析」裡,如果沒有的話,需要自己去「Excel 增益集」勾選「分析工具箱」。補充「Excel 增益集」的路徑:
windows 路徑 — 「檔案」、「選項」、「增益集」;
mac 路徑 — 「工具」、「增益集」
在處理資料時,提醒大家有個大重點要銘記在心:資料驅動決策,意思是我們先有資料,再從中篩選出真正需要的資訊,最後消化後得到的才叫知識,而做決策需要基於正確的知識。所以以下會介紹統計學的概念,來增強我們篩選資料的能力唷!
變項種類
在描述性統計中,會利用變項來具體化抽象的概念,以下說明各變項:
標準差
下面附圖為樣本標準差的懶人包,如果對統計概念不清楚的朋友務必要好好閱讀哇!
抽樣
抽樣是指從一個大群體(母體)中抽出部份樣本來做研究的方法或程序,而抽樣的目的,則是希望能藉由適當的抽樣方式,從母體中抽取 一組具有代表性的樣本。最簡單易懂的例子就是選前民調,因為民調單位不可能調查全台灣可投票民眾的投票選擇,所以只能隨機抽樣部分民眾做調查,再從該調查中的統計參數判定調查準確性。
由上述可知,倘若樣本不具有代表性的話,會造成研究失準、推論錯誤,所以大家在做抽樣的時候,務必慎選最適合的抽樣方法,避免功虧一簣唷!
相關分析
當我們遇到一組陌生資料不知從何下手時,可以在座標平面上以點的形式標示出 X 跟 Y ,即可約略看出兩者之間的相關形式,上述方法就是散佈圖,散佈圖呈現兩點相關的形式,相關係數就是用來描述兩個變數間的相關程度高低。Pearson 相關係數用 r 表示,介於 1 與 −1 之間。如圖(一)兩變數的散佈圖呈現左下往右上的直線關係時,就代表兩個變數之間存在正相關,其相關係數 r>0;如果像圖(二)散佈圖呈左上往右下的直線關係時,代表兩個變數之間存在負相關,其相關係數 r<0;若如圖(三)散佈圖呈現非線性或是不規則時,代表相關係數 r 接近於 0。
在 Excel 中也能輕鬆執行相關分析,只要點選「資料」→「資料分析」→「相關係數」,再選取輸入輸出範圍就完成囉!那如果只是想求出相關係數的話,也可以善用函數 =CORREL。
=CORREL(範圍一, 範圍二)
迴歸分析
迴歸係數與相關係數不同,相關係數代表兩個變數相關程度,而迴歸係數代表的是 X 變項與 Y 變項之關係,數值解釋 X 變項增加一個單位,Y 變項隨之改變多少單位,迴歸係數和相關係數之方向性會相同、正負同號。
在 Excel 上執行迴歸分析也非常簡單,只要點選「資料」→「資料分析」→「迴歸分析」,再選取輸入輸出範圍就完成囉!
完成後會看到上圖那樣的摘要輸出,特別要講判定係數 — — R 平方,是一個解釋性係數,代表這個模型可以解釋的比例,可以用來評估迴歸模型好壞。R 平方範圍是 0~1,通常以百分數表示。比方迴歸模型的 R 平方等於 0.6,那麼就代表此迴歸模型中的自變項對依變項之變異的解釋程度為 60%。