【Excel】統計概念介紹

NTU Data Analytics Club
NTU Data Analytics Club
7 min readNov 13, 2020

非常榮幸邀請到 Tim 為我們上 Excel 專題課程, Tim 跟大家簡介了幾個重要的統計概念,並利用「銷售資料 」資料集帶領大家實際利用 Excel 進行分析。如果你對於今天的主題有興趣的話就一起看下去吧!

本篇文章 key takeaway:

  1. 簡單統計觀念介紹,入門或 recap 都必讀!
  2. 學習使用 Excel 進行 t-test 與 ANOVA 分析
  3. 迴歸分析與相關分析之差別與執行

講師介紹:

郭俊東(Tim),臺大健康政策與管理研究所博士,曾任哈佛大學公衛學院博士後研究員,專長教學論文寫作、統計學及統計軟體,現為國防醫學院兼任教師。

統計概念

Tim 利用「銷售資料」資料集帶我們練習用 Excel 執行「t-test」以及「ANOVA」分析。

在進入實作前,我們先來簡單複習一下統計概念!

在統計學的世界中,分成:描述性統計推論性統計

描述性統計又稱敘述統計,它的意義是將樣本的大量資料進行整理與計算,用來描繪該樣本所呈現的基本現況,包含資料的次數、集中的趨勢、離散的程度、資料的分佈以及統計圖呈現,舉例來說,Tim 先前教大家製作的樞紐分析圖,即屬於描述性統計的範疇。

推論性統計的主要功能是利用觀察數量有限的樣本,來推論「母體」樣貌,像是:利用投票前的民意調查來推估最後大選結果、產品正式推出前的小規模試用反饋推估最後商品是否受歡迎,都是推論性統計的例子。

但推論性統計的種類繁多,介紹下來會有點離題,這邊提供大家推論性統計懶人包(附圖於下方),有興趣的朋友可以再自行深入研究!

推論性統計懶人包

我們接下來帶大家一起用 Excel 進行兩種不同的推論性統計分析—— t-test、ANOVA。

另外要特別說明的是,因為 Excel 不是專門的分析工具,所以在分析前要先整理資料格式,之後才方便我們作業,在下面示範的作法是直接複製兩個組別的銷量到新工作表進行分析。

T-test

T-test 主要用來比較兩組樣本的平均值是否有差異,這邊利用用戶分群後的 A/B test 結果來進行分析,要看 A、B 兩方案成效何者勝出。

一般而言,在 t-test 前會先用 F-test 來檢定兩個樣本的變異數是否相等,但在這次的分析中,我們暫時先假設變異數相等以進行後續的 T-test。

步驟一、點選「資料」中的「資料分析」,選取「t 檢定:兩個母體平均數差的檢定,假設變異數相等」

T-test 檢定示意圖
變數範圍分別填入 A、B 兩組的銷售數值欄位

步驟二、得到 t-test 分析結果,並進行判讀

T-test 分析結果

因為資料分析顯示 p 值為 4.32511E-61,代表 p 值非常小,而常用的顯著水準為 0.05,表示 T-test 分析結果達到顯著水準, A、B 兩組的消費金額在統計上有顯著差異。

步驟三、利用樞紐分析將 A、B 兩組的銷售量製成圖表

製成圖表後可以更明確看出 B 方案的成效更好,後續在進行決策時,圖表提供更直接明確的證據可以依循。

樞紐分析示意圖
樞紐分析圖

ANOVA

ANOVA 用於比較多組之間的平均數差異,若組別差異顯著的話,則會進行事後比較,確認各組的差異情形。

跟 t-test 不同的是,t-test 只能比較兩組樣本平均值,而 ANOVA 可以比較多組樣本平均值的差異。

因為我們這次分析是針對會員等級(普通、黃金、鑽石),只有一個自變項,所以選擇使用「單因子」變異數分析(One-way ANOVA)。

由於 ANOVA 分析過程與上面的 T-test 雷同,都是先進行資料分析、觀察資料組別間是否存在顯著差異、確認差異狀況、最後製圖呈現。所以這邊提供初始資料分析步驟,後面的過程可以直接參照 T-test。

ANOVA 資料分析路徑:
點選「資料」中的「資料分析」,選取「單因子變異數分析」

注意:「資料分析」在「資料」選項的「分析」裡,如果沒有的話,需要自己去「Excel 增益集」勾選「分析工具箱」。補充「Excel 增益集」的路徑:
windows 路徑 — 「檔案」、「選項」、「增益集」;
mac 路徑 — 「工具」、「增益集」

在處理資料時,提醒大家有個大重點要銘記在心:資料驅動決策,意思是我們先有資料,再從中篩選出真正需要的資訊,最後消化後得到的才叫知識,而做決策需要基於正確的知識。所以以下會介紹統計學的概念,來增強我們篩選資料的能力唷!

變項種類

在描述性統計中,會利用變項來具體化抽象的概念,以下說明各變項:

標準差

下面附圖為樣本標準差的懶人包,如果對統計概念不清楚的朋友務必要好好閱讀哇!

抽樣

抽樣是指從一個大群體(母體)中抽出部份樣本來做研究的方法或程序,而抽樣的目的,則是希望能藉由適當的抽樣方式,從母體中抽取 一組具有代表性的樣本。最簡單易懂的例子就是選前民調,因為民調單位不可能調查全台灣可投票民眾的投票選擇,所以只能隨機抽樣部分民眾做調查,再從該調查中的統計參數判定調查準確性。

由上述可知,倘若樣本不具有代表性的話,會造成研究失準、推論錯誤,所以大家在做抽樣的時候,務必慎選最適合的抽樣方法,避免功虧一簣唷!

相關分析

當我們遇到一組陌生資料不知從何下手時,可以在座標平面上以點的形式標示出 X 跟 Y ,即可約略看出兩者之間的相關形式,上述方法就是散佈圖,散佈圖呈現兩點相關的形式,相關係數就是用來描述兩個變數間的相關程度高低。Pearson 相關係數用 r 表示,介於 1 與 −1 之間。如圖(一)兩變數的散佈圖呈現左下往右上的直線關係時,就代表兩個變數之間存在正相關,其相關係數 r>0;如果像圖(二)散佈圖呈左上往右下的直線關係時,代表兩個變數之間存在負相關,其相關係數 r<0;若如圖(三)散佈圖呈現非線性或是不規則時,代表相關係數 r 接近於 0。

在 Excel 中也能輕鬆執行相關分析,只要點選「資料」→「資料分析」→「相關係數」,再選取輸入輸出範圍就完成囉!那如果只是想求出相關係數的話,也可以善用函數 =CORREL。

=CORREL(範圍一, 範圍二)

迴歸分析

迴歸係數與相關係數不同,相關係數代表兩個變數相關程度,而迴歸係數代表的是 X 變項與 Y 變項之關係,數值解釋 X 變項增加一個單位,Y 變項隨之改變多少單位,迴歸係數和相關係數之方向性會相同、正負同號。

在 Excel 上執行迴歸分析也非常簡單,只要點選「資料」→「資料分析」→「迴歸分析」,再選取輸入輸出範圍就完成囉!

完成後會看到上圖那樣的摘要輸出,特別要講判定係數 — — R 平方,是一個解釋性係數,代表這個模型可以解釋的比例,可以用來評估迴歸模型好壞。R 平方範圍是 0~1,通常以百分數表示。比方迴歸模型的 R 平方等於 0.6,那麼就代表此迴歸模型中的自變項對依變項之變異的解釋程度為 60%。

最後感謝 Tim 帶來如此豐富的課程內容,讓社員了解更多 Excel 的技巧,包含統計概念及相關分析應用等,相信這些技能將協助社員在接下來的企業合作專案中,更有效率的處理資料!

歡迎各位拍手交流,NTUDAC 也會持續在 MediumFacebookLinkedIn 更新每週社課的資訊,歡迎對資料有興趣的大家持續關注,跟我們交流想法~

--

--

NTU Data Analytics Club
NTU Data Analytics Club

臺大資料分析與決策社 (NTUDAC) 為一群對資料科學抱有熱忱的臺大學生創立, 旨在教授學員如何利用數據分析解決商業問題的商業性社團,在 Medium 將分享社團課程與實作專案內容,以期推廣資料分析的相關資訊。