【Excel】統計概念介紹

NTU Data Analytics Club

Published in

NTU Data Analytics Club

7 min readNov 13, 2020

非常榮幸邀請到 Tim 為我們上 Excel 專題課程， Tim 跟大家簡介了幾個重要的統計概念，並利用「銷售資料」資料集帶領大家實際利用 Excel 進行分析。如果你對於今天的主題有興趣的話就一起看下去吧！

本篇文章 key takeaway：

簡單統計觀念介紹，入門或 recap 都必讀！
學習使用 Excel 進行 t-test 與 ANOVA 分析
迴歸分析與相關分析之差別與執行

講師介紹：

郭俊東(Tim)，臺大健康政策與管理研究所博士，曾任哈佛大學公衛學院博士後研究員，專長教學論文寫作、統計學及統計軟體，現為國防醫學院兼任教師。

統計概念

Tim 利用「銷售資料」資料集帶我們練習用 Excel 執行「t-test」以及「ANOVA」分析。

在進入實作前，我們先來簡單複習一下統計概念！

在統計學的世界中，分成：描述性統計及推論性統計。

描述性統計又稱敘述統計，它的意義是將樣本的大量資料進行整理與計算，用來描繪該樣本所呈現的基本現況，包含資料的次數、集中的趨勢、離散的程度、資料的分佈以及統計圖呈現，舉例來說，Tim 先前教大家製作的樞紐分析圖，即屬於描述性統計的範疇。

而推論性統計的主要功能是利用觀察數量有限的樣本，來推論「母體」樣貌，像是：利用投票前的民意調查來推估最後大選結果、產品正式推出前的小規模試用反饋推估最後商品是否受歡迎，都是推論性統計的例子。

但推論性統計的種類繁多，介紹下來會有點離題，這邊提供大家推論性統計懶人包（附圖於下方），有興趣的朋友可以再自行深入研究！

我們接下來帶大家一起用 Excel 進行兩種不同的推論性統計分析—— t-test、ANOVA。

另外要特別說明的是，因為 Excel 不是專門的分析工具，所以在分析前要先整理資料格式，之後才方便我們作業，在下面示範的作法是直接複製兩個組別的銷量到新工作表進行分析。

T-test

T-test 主要用來比較兩組樣本的平均值是否有差異，這邊利用用戶分群後的 A/B test 結果來進行分析，要看 A、B 兩方案成效何者勝出。

一般而言，在 t-test 前會先用 F-test 來檢定兩個樣本的變異數是否相等，但在這次的分析中，我們暫時先假設變異數相等以進行後續的 T-test。

步驟一、點選「資料」中的「資料分析」，選取「t 檢定：兩個母體平均數差的檢定，假設變異數相等」

變數範圍分別填入 A、B 兩組的銷售數值欄位

步驟二、得到 t-test 分析結果，並進行判讀

因為資料分析顯示 p 值為 4.32511E-61，代表 p 值非常小，而常用的顯著水準為 0.05，表示 T-test 分析結果達到顯著水準， A、B 兩組的消費金額在統計上有顯著差異。

步驟三、利用樞紐分析將 A、B 兩組的銷售量製成圖表

製成圖表後可以更明確看出 B 方案的成效更好，後續在進行決策時，圖表提供更直接明確的證據可以依循。

ANOVA

ANOVA 用於比較多組之間的平均數差異，若組別差異顯著的話，則會進行事後比較，確認各組的差異情形。

跟 t-test 不同的是，t-test 只能比較兩組樣本平均值，而 ANOVA 可以比較多組樣本平均值的差異。

因為我們這次分析是針對會員等級（普通、黃金、鑽石），只有一個自變項，所以選擇使用「單因子」變異數分析（One-way ANOVA）。

由於 ANOVA 分析過程與上面的 T-test 雷同，都是先進行資料分析、觀察資料組別間是否存在顯著差異、確認差異狀況、最後製圖呈現。所以這邊提供初始資料分析步驟，後面的過程可以直接參照 T-test。

ANOVA 資料分析路徑：
點選「資料」中的「資料分析」，選取「單因子變異數分析」

注意：「資料分析」在「資料」選項的「分析」裡，如果沒有的話，需要自己去「Excel 增益集」勾選「分析工具箱」。補充「Excel 增益集」的路徑：
windows 路徑 — 「檔案」、「選項」、「增益集」；
mac 路徑 — 「工具」、「增益集」

在處理資料時，提醒大家有個大重點要銘記在心：資料驅動決策，意思是我們先有資料，再從中篩選出真正需要的資訊，最後消化後得到的才叫知識，而做決策需要基於正確的知識。所以以下會介紹統計學的概念，來增強我們篩選資料的能力唷！

變項種類

在描述性統計中，會利用變項來具體化抽象的概念，以下說明各變項：

標準差

下面附圖為樣本標準差的懶人包，如果對統計概念不清楚的朋友務必要好好閱讀哇！

抽樣

抽樣是指從一個大群體（母體）中抽出部份樣本來做研究的方法或程序，而抽樣的目的，則是希望能藉由適當的抽樣方式，從母體中抽取一組具有代表性的樣本。最簡單易懂的例子就是選前民調，因為民調單位不可能調查全台灣可投票民眾的投票選擇，所以只能隨機抽樣部分民眾做調查，再從該調查中的統計參數判定調查準確性。

由上述可知，倘若樣本不具有代表性的話，會造成研究失準、推論錯誤，所以大家在做抽樣的時候，務必慎選最適合的抽樣方法，避免功虧一簣唷！

迴歸分析

迴歸係數與相關係數不同，相關係數代表兩個變數相關程度，而迴歸係數代表的是 X 變項與 Y 變項之關係，數值解釋 X 變項增加一個單位，Y 變項隨之改變多少單位，迴歸係數和相關係數之方向性會相同、正負同號。

在 Excel 上執行迴歸分析也非常簡單，只要點選「資料」→「資料分析」→「迴歸分析」，再選取輸入輸出範圍就完成囉！

完成後會看到上圖那樣的摘要輸出，特別要講判定係數 — — R 平方，是一個解釋性係數，代表這個模型可以解釋的比例，可以用來評估迴歸模型好壞。R 平方範圍是 0~1，通常以百分數表示。比方迴歸模型的 R 平方等於 0.6，那麼就代表此迴歸模型中的自變項對依變項之變異的解釋程度為 60%。

最後感謝 Tim 帶來如此豐富的課程內容，讓社員了解更多 Excel 的技巧，包含統計概念及相關分析應用等，相信這些技能將協助社員在接下來的企業合作專案中，更有效率的處理資料！

歡迎各位拍手交流，NTUDAC 也會持續在 Medium、Facebook 與 LinkedIn 更新每週社課的資訊，歡迎對資料有興趣的大家持續關注，跟我們交流想法~