資料分析 03 統計學- 敘述統計

Momus C.
9 min readJun 9, 2018

[概論] 本篇主要了解敘述統計的三大觀念: 資料的集中趨勢、資料的分散趨勢、以及資料的統計量及其呈現。

前言

首先,我們先來複習前一章所提及的敘述統計(descriptive statistics)。何謂敘述統計呢,簡單來說,是就資料本身加以描述,並不做其它的推論。例如: 描述資料本身的平均數、中位數、變異數等等。(疑? 有些名詞聽不懂沒關係,我們下方會慢慢介紹。

然而通常對資料做初步整理,都會從敘述統計開始,在做敘述統計前,我們都會經過一番資料整理的過程,光是做這些整理,可能會花去整體作業時間的八成到九成,而這段整理的過程,我們稱之為"清洗資料"(Data cleaning)。

為什麼要清洗資料呢? 主要是因為原有蒐集的資料太過雜亂,其中有可能是電腦語言所編寫的系統資料,亦有可能是市場調查當初設定問卷的規格等等,這些最原始的資料通常我們稱為"髒資料",將這些髒資料整理成我們要分析的格式後,就稱為"乾淨的資料"。有了乾淨的資料,我們就可以繼續我們分析的流程囉!

如果想練習如何清洗資料,本文最下方的延伸學習有提供相關連結可以作為參考。

敘述統計的目的,就是在分析前,來看看我們資料的"樣子",知道資料長怎樣後,才能針對自己的資料做進一步分析。至於怎麼看資料呢? 通常會從資料的集中趨勢、分散趨勢、以及統計量,這幾個方向著手。以下我們就來一個一個介紹吧!

資料集中趨勢

假設今天有50筆班上同學的身高資料,那麼今天要闡述這50位同學的身高,如果一個一個表達,是不是很複雜呢? 於是統計學家就思考,如果有指標可以代表這些數值,將會有利於分析的速度。而現在我們就要來介紹其中一類指標: 資料集中趨勢(或稱中央趨勢)!

資料集中趨勢的指標可分為以下三個:

  1. 平均數 (mean): 全部數值加總/數值個數。
  2. 中位數 (median, Mo): 一組按大小次序排列的觀測值中,居中的數值。
  3. 眾數 (mode): 一組數據中出現次數最多的數值。

雖然大家對這三個指標不會太陌生,不過我們還是舉一個小小例子複習一下。假設有一組資料是: 1, 2, 2, 2, 4, 5, 5。那麼平均數就會是3,中位數就會是2,眾數也是2。

回到這小節第一個例子,如果以平均數當作資料集中趨勢,例如: 班上50位同學平均身高是175公分,這樣是不是簡潔易懂,又能代表全體的資料呢?

一般我們要表達資料的集中趨勢時,會採用平均數作為代表,但當資料有極端值出現,平均數會失去代表集中趨勢的特性,像是今天來個幾個身高200以上的轉學生,班上同學的平均身高就會被拉高,但畢竟轉學生只佔少數,也因此,平均數就可能不適合代表整體數據,而通常我們會採用中位數作為代表。

[注意] 資料採用平均數或中位數作為資料集中趨勢的指標,會影響之後我們要用的統計方法喔。

資料分散趨勢

假設有一組資料是10,10,10,而另外一組資料是9,10,11。如果我們只看資料的集中趨勢,那麼以平均數作為代表,這兩組數值算出來的平均數都會是10,為了更能夠代表資料,指標除了集中趨勢外,我們還可以加上資料的分散程度,來代表我們的資料,以下則是幾個有關資料分散趨勢的相關專有名詞:

  1. 最大值 (max): 資料的最大值。
  2. 最小值 (min): 資料的最小值。
  3. 全距 (range): 資料的最大值減最小值。
  4. 四分位差(interquartile range, IQR): 又稱四分位距。是將資料排序,劃分成四等份後,依照上四分位數(Q3,即位於75%)與下四分位數(Q1,即位於25%)算出來的差。
  5. 變異數 (variance): 量測所有資料到平均數的平均距離。
  6. 變異係數(coefficient of variation, CV) 用來比較單位不同或單位相同但資料差異甚大的資料分散情形。
  7. 標準差 (standard deviation, SD): 又稱均方差(Mean square error),為 變異數的平方根。
  8. 偏態 (skewness): 大部份的數值落在平均數的哪一邊。

而以下,我們將對大家會有疑惑的專有名詞進行說明。

[四分位差] 我們舉個例子來解釋相關的概念,假設我們的資料為 1, 2, 3, 4, 5, 6, 7, 8, 9, 那麼5則為中位數,稱為第二四分位距(Q2); 而小於中位數的數值1, 2, 3, 4,其中位數為(2+3)/2=2.5,稱為第一四分位距(Q1); 大於中位數的數值6, 7, 8, 9,其中位數為(7+8)/2=7.5,稱第三四分位距(Q3)。將Q3-Q2 就可以算出我們的四分位差,即 7.5-2.5 = 5。

[變異數] 變異數越大,代表大部分的數值和其平均值之間差異較大,資料較分散; 變異數越小,代表大部分的數值和其平均值之間差異較小,資料較集中。

[變異係數] e.g. 假設今天三位同學的的身高分別是181, 173, 175 而體重分別是75, 66, 60,而今天我們要比較身高資料和體重資料的差異情形,但由於身高資料的單位是"公分",體重資料的單位是"公斤",此時就可以利用變異係數進行比較。這邊採用樣本變異係數的公式進行運算後,身高的變異係數是2.3611,體重的變異係數是1.2684。有此可得知,身高的變異係數較大,判別身高的資料分散程度會比較大。其公式如下:

[標準差] 其解釋和變異數相同。

[變異數 vs 標準差] 變異數是所有資料與平均值的平均距離,在計算的過程中,為了避免正負相抵,因此我們將距離平方,得出來的變異數就可以解釋數據的發散程度。但此時原先的數值單位也會因為平方變成不可解釋,因此當我們需要解釋單位時,會將變異數開根號,得出標準差,其單位就可以用來解釋。

[偏態] 若資料分配較多集中在低數那方,稱為正偏態分配(或稱右偏態分配); 若分配較多集中在高數值方面,稱為負偏態分配(或稱左偏態分配)。

資料統計量 - 次數分配表

了解資料集中趨勢和分散趨勢後,我們來認識一下資料的統計量。 所謂的「統計量」就是由一組樣本所算出的單一數值。

這邊我們介紹統計量最常見的呈現方式: 次數分配表( frequency distribution table),亦即針對資料的出現次數所整理的表格。

而次數分配表的圖表呈現又有很多種,包含長條圖、圓餅圖等等。下圖則用python的長條圖呈現次數分配表。

[原始程式碼] http://pcse.pw/7VDEM

[圖表說明] 今天有五個人參加拔蘿蔔比賽,計時一分鐘,最後結果經由裁判紀錄下來。由上圖次數分配表可以得知,第一名Tina拔了6根蘿蔔,而最後一名Claire只拔了一根。

這邊由於是敘述統計,只對資料本身做描述,並不能加以揣測說Claire由於偷懶所以只拔了一根這種話,如果要得出這樣的結論,必須要有數據證明這番論證才行,這就會是推論統計的範疇。

[注意] 這邊小編Momus提醒一下兩個容易混淆的專有名詞,在圖表呈現最常混淆的是長條圖(bar chart)和直方圖(histogram),兩者有甚麼區別呢? 在圖形表達上,長條圖的長條間並沒有連在一起,比較適合間斷型資料的視覺化呈現。而直方圖的長條間有連在一起,比較適合連續型資料的視覺化呈現。

下圖我們就來畫一張直方圖,來看看所謂連在一起,是怎麼個連法。

[原始程式碼] http://pcse.pw/7B3Q3

然而,為甚麼要區分長條圖和直方圖呢? 主要是因為在連續型資料的解釋上,直方圖會比較好解釋。像是今天我們量測班上同學的身高,如果說160~170公分的同學有三位,這樣是不是有利用說明資料呢。

此時就會有人提問: 如果想要用長條圖表示連續型資料,是否也是可以?

答案是: 當然可行的! 像是股票資料,這種連續型數值,我們有時候會看「趨勢線」,因此不需要將資料切分。如此可以知道,長條圖和直方圖要如何選擇,就要看分析的人想要怎麼解釋圖表囉。

而在說明上方圖表之前,我們來認識一些製作直方圖的觀念。

首先,我們要有資料的全距,有了全距,就來決定要切分資料的組數,一般而言,組數可依照研究者自身的需求做決定,也可以利用下方的經驗公式,決定組數:

決定好組數,就可以利用 全距/組數 算出所謂的「組距」,組距就是用來切分數值的量尺。了解這些專有名詞後,我們就來透過上方的圖表,來實際操作一下吧。

[圖表說明] 由於資料是連續型,依照經驗判斷要將所有收集回來的數值劃分為五等分,亦即組數設定為5。資料的全距是 1.1 (1.4-0.3),組距是 0.22(1.1/5),因此我們將資料每0.22個單位劃分為一組資料。第一組資料會是從最小值0.3開始到0.52 (0.3+0.22),第二組資料從0.52到0.74(0.52+0.22),以此類推,最後第五組資料是從1.18到1.4,剛好會到資料的最大值。

延伸學習

這裡提供一個可以練習資料清洗的數據集,大家可以多多利用悠:

https://makingnoiseandhearingthings.com/2018/04/19/datasets-for-data-cleaning-practice/

結尾

學會認識自己的資料後,下一篇,將從資料視覺化開始介紹。

最後,如果喜歡這篇文章,請按下方的拍手鍵,來點掌聲和鼓勵,讓我感受一下你們的溫暖和支持。ALL the best! ^^

Reference:

--

--