【Excel】統計概念與實作

NTU Data Analytics Club
NTU Data Analytics Club
6 min readNov 6, 2021

本堂社課將由 Tim 郭俊東講師帶大家複習常見的統計概念,並且利用 Excel 實作跑統計。不論是學過統計但對某些概念仍然模糊,或是剛入門統計的新手,這篇文章都相當適合你閱讀!

本篇文章 key takeaway:

  1. 敘述統計概念
  2. 推論統計概念
  3. 差異檢定

講師 Tim 郭俊東 簡介

臺大健康政策與管理研究所博士,曾任哈佛大學公衛學院博士後研究員、國防醫學院兼任教師,專長教學論文寫作、統計學及統計軟體。

敘述統計概念

1.標準差概念: 【Excel】統計概念介紹- NTU Data Analytics Club

2. 函數 (這邊要注意連續型變數才適用以下函數 )

  • =MEAN(數值資料範圍)

計算選取之數值資料的平均值

  • =MEDIAN(數值資料範圍)

計算選取之數值資料的中位數

  • =STDEV.P(數值資料範圍)

計算選取之數值資料的母體標準差

  • =STDEV.S(數值資料範圍)

計算選取之數值資料的樣本標準差

  • =VAR.P(數值資料範圍)

計算選取之數值資料的母體變異數

  • =VAR.S(數值資料範圍)

計算選取之數值資料的樣本變異數

  • 敘述統計實作:Excel 分析工具箱
Excel 分析工具箱
Excel 分析工具箱

Step 1. 要進行敘述統計時固然可以利用上述函數,另外一項做法,就是利用 Excel 的資料分析功能。點選最上方【資料】的【資料分析】後,選取「敘述統計」。

敘述統計

Step 2. 在「輸入範圍」拉選欲分析的數字資料範圍,若範圍包含標題,需勾選「類別軸標記是在第一列上」。接著勾選「摘要統計」,若要獲得信賴區間的誤差範圍(margin of error),可勾選「平均數信賴度」並輸入信心水準。

敘述統計結果輸出

Step 3. 一次獲得集中趨勢和離散趨勢如平均數、標準差、變異數等敘述統計數值。

推論統計概念

抽樣分布

以平均值作為統計量為例,若對母體重複抽樣,集合所有抽樣結果的平均值之分布,稱為抽樣分布(Sampling distribution)。

在資料分布中,「單一數字」與「所有數字之平均值」的差異,稱為離差(Deviation)。

在抽樣分布中,「單一樣本平均值」與「所有樣本平均值的平均值(等於母體平均值)」的差異,特稱為誤差(Error)。

標準差用來衡量各個數字與平均值的差異,而標準誤則是衡量各種抽樣結果的平均值與母體平均值的差異。

  • 中央極限定理
中央極限定理

抽樣的重點是代表性,我們不能抽取一部份樣本就認為可以代表為母體,將有以偏概全(選樣誤差,Selection bias)的風險,就像我們不能撈湯的表面就說整鍋湯都是油的。承接連結文中的選舉民調例子,要怎麼利用所抽的選民樣本數值去推論母體的數值呢?中央極限定理就派上用場啦!不論母體分佈如何,只要我們所抽樣本的樣本數夠大(一般為 30,多少才算足夠仍取決於母體分布),各種抽樣結果平均值的分佈(即抽樣分布)就會接近常態分佈,我們可再利用常態分佈的特性,將樣本平均值加上誤差範圍,就能做出區間估計。

  • 利用Z轉換將常態分佈標準化

Z轉換方式: (數值-平均數)/標準差,也可以使用 Excel 公式= STANDARDIZE(範圍, 平均值, 標準差)

差異檢定

這邊結合假說檢定流程,利用獨立樣本 t 檢定進行差異檢定

1. 差異分析可以依靠假說檢定來幫助做判斷。若我們想探討電商平台的創新介面跟原有介面版本,在銷售金額平均上是否有顯著差異(即確認這個差異並非來自抽樣的隨機誤差),那要先列出:

虛無假說 (H0):原有介面平均銷售額=創新介面平均銷售額

對立假說 (H1):原有介面平均銷售額 ≠ 創新介面平均銷售額

2. 接著我們要設定顯著水準 α level ,通常是 5%,p值小於 5% 時則拒絕 H0、結論支持 H1

獨立樣本 t 檢定

3. 計算統計值,這邊我們點選【資料】中的【資料分析】,選擇「t 檢定:兩個母體平均數差的檢定,假設變異數相等」,將A欄(原有介面銷售額)放入「原有介面銷售額 的資料範圍」,B欄(創新介面銷售額)放入「創新介面銷售額的資料範圍」,由於選取的資料範圍有包含標題,因此要勾選「標記」,顯著水準 「α」輸入 0.05,按下確認後,就可以得到 t 檢定分析結果。

t 檢定分析結果

4. 在這張 Excel 替我們做出的 t 檢定表中,注意「P(T<=t) 雙尾」後的值「1.6E-17」,代表雙尾檢定的p值遠小於 0.05,達到顯著水準,因此應拒絕 H0,結論支持H1,代表「原有介面平均銷售額 ≠ 創新介面平均銷售額」,此結果值得我們繼續探討造成兩者差異的原因。

同場加映:好用又免費的統計軟體 — JASP

Tim 特別推薦 JASP 統計軟體(Jeffrey’s Amazing Statistics Program),其介面簡單、操作直覺,並附有範例資料。下圖為使用 JASP 進行差異分析的示意圖,大多數的統計分析如:t-檢定、卡方檢定、信度、迴歸分析等,皆能動動手指點選就完成。更強大的是,這個軟體無須付費,若沒有經費購買 SPSS 軟體,JASP 會是很好的替代方案!

JASP

感謝 Tim 深入淺出地講解統計概念,並且使用 Excel 實作分析讓這些抽象的概念變得更容易理解。這些統計概念,將為日後做專案的洞察提供強而有力的支撐,強化社員與業主的溝通邏輯!

歡迎各位拍手交流,NTUDAC 也會持續在 MediumFacebook LinkedIn 更新每週社課的資訊,歡迎對資料有興趣的大家持續關注,跟我們交流想法!!!

--

--

NTU Data Analytics Club
NTU Data Analytics Club

臺大資料分析與決策社 (NTUDAC) 為一群對資料科學抱有熱忱的臺大學生創立, 旨在教授學員如何利用數據分析解決商業問題的商業性社團,在 Medium 將分享社團課程與實作專案內容,以期推廣資料分析的相關資訊。