[Python 商業數據分析之可視化繪圖] 第11講: 箱形圖(Seaborn-Box)(一)

王拓
Python 商業數據分析
Feb 9, 2020

1.箱形圖又稱為盒須圖、盒式圖或箱線圖,是用來顯示數據分散情況的統計圖,因形狀如箱子而得名,適用於較大數據集差異的表現。

2.它能顯示出一組或多組資料的最大值、最小值、中位數、及上下四分位數。

3.箱形圖的方框會從數據的下四分位值延伸到上四分位值,因此可以看到四分位間距。方框內的水平線表示中位數,從框延伸的晶須(whisker)顯示數據范圍,可以顯示數據異常值(outliers),異常值通常以圓形或菱形的形式顯示在圖中。

1. 箱形圖函式

2. 箱形圖說明

箱形圖(Box-plot)是一種用作顯示一組數據分散情況資料的統計圖,也常會有線條在上下四分位數之外延伸出去,像是鬍鬚。它主要用於反映原始數據分佈的特徵,還可以進行多組數據分布特徵的比較。

箱形圖是一種顯示數據分佈的標準化方法,圖形主要是基於五個數值的摘要:最小值(minimum)、下四分位數(Q1)、中位數(median)(Q2)、上四分位數(Q3)和最大值(maximum)。

  1. 中位數(median / Q2 / 50th Percentile):數據集的中間值,也就是所有數值由小排到大第50%的數值,因此會有50%的數值小於中位值,同時也會有50%的數值大於中位值。
  2. 下四分位數(Q1 / 25th Percentile):所有數值由小排到大第25%的數值,因此會有25%的數值小於Q1,同時也會有75%的數值大於Q1。
  3. 上四分位(Q3 / 75th Percentile):所有數值由小排到大第75%的數值,因此會有75%的數值小於Q3,同時也會有25%的數值大於Q3。
  4. 四分位間距(interquartile range, IQR):第25至第75個百分點,有50%的數據在IQR之間。
  5. 鬢鬍(whiskers):圖中藍色的線。
  6. 離群值(outliers):圖中綠色圓圈。
  7. 最小值區間(minimum):Q1–1.5*IQR,此範圍中的最小值即為箱形圖下限,超出此範圍即視為離群值。
  8. 最大值區間(maximum):Q3 + 1.5*IQR,此範圍中的最大值即為箱形圖上限,超出此範圍即視為離群值。

3. 箱形圖與常態分配

4. 導入相關函式

首先導入pandas及seaborn,並執行%config InlineBackend. figure_format = 'retina'以提高jupyter notebook圖形顯示的解析度。

5. 簡單箱形圖

使用單簡的數據1、2、3、4並將數據轉換為資料結構的型態。

計算下四分位數(Q1)、中位數(Q2)、上四分位數(Q3)及IQR。

繪製箱形圖。

繪製橫向箱形圖。

6. 離群值(outlier )

出現離群值情況,數據如下。

有離群值時資料的下四分位數(Q1)、中位數(Q2)、上四分位數(Q3)及IQR。

繪製箱形圖,可以看到上面出現離群值。

超出上限值即為離群值,這裡是超上10即為離群值。

7. 檢視小費數據

繪製小費的箱形圖,可以看到星期六小費有最多的離群值,因此若是服務員在星期六上班是個好選擇。而星期日有較高的中位數及上四分位(Q3 )也是個不錯的選擇。

8. 顏色color

設定顏色,這裡選擇綠色。

9. 色度hue

色度選用性別,用來區分男女給的小費分布。

檢查星期六小費最大值。

檢查星期六女性小費的最大值。

10. 調色板(palette)

檢視「小費」與「日期」,並且使用調色板顏色區分(由淺到深)。

檢視「小費」與「人數」並且使用_r,顏色將由深到淺。

檢視「小費」與「人數」並且使用_d,顏色比使用_r較深。

檢視「小費」與「日期」,增加色度hue,並且使用不同顏色區分。

檢視「帳單金額」與「日期」,並且使用Set,範圍Set1 ~ Set3。

箱形圖第一部分就講到這裡。

感謝閱讀完這篇文章,如果覺得這篇文章對你有幫助請在底下幫我拍個手(長按最多可以拍50下手)。

--

--