[Python 商業數據分析之可視化繪圖] 第11講: 箱形圖(Seaborn-Box)(一)
1.箱形圖又稱為盒須圖、盒式圖或箱線圖,是用來顯示數據分散情況的統計圖,因形狀如箱子而得名,適用於較大數據集差異的表現。
2.它能顯示出一組或多組資料的最大值、最小值、中位數、及上下四分位數。
3.箱形圖的方框會從數據的下四分位值延伸到上四分位值,因此可以看到四分位間距。方框內的水平線表示中位數,從框延伸的晶須(whisker)顯示數據范圍,可以顯示數據異常值(outliers),異常值通常以圓形或菱形的形式顯示在圖中。
1. 箱形圖函式
2. 箱形圖說明
箱形圖(Box-plot)是一種用作顯示一組數據分散情況資料的統計圖,也常會有線條在上下四分位數之外延伸出去,像是鬍鬚。它主要用於反映原始數據分佈的特徵,還可以進行多組數據分布特徵的比較。
箱形圖是一種顯示數據分佈的標準化方法,圖形主要是基於五個數值的摘要:最小值(minimum)、下四分位數(Q1)、中位數(median)(Q2)、上四分位數(Q3)和最大值(maximum)。
- 中位數(median / Q2 / 50th Percentile):數據集的中間值,也就是所有數值由小排到大第50%的數值,因此會有50%的數值小於中位值,同時也會有50%的數值大於中位值。
- 下四分位數(Q1 / 25th Percentile):所有數值由小排到大第25%的數值,因此會有25%的數值小於Q1,同時也會有75%的數值大於Q1。
- 上四分位(Q3 / 75th Percentile):所有數值由小排到大第75%的數值,因此會有75%的數值小於Q3,同時也會有25%的數值大於Q3。
- 四分位間距(interquartile range, IQR):第25至第75個百分點,有50%的數據在IQR之間。
- 鬢鬍(whiskers):圖中藍色的線。
- 離群值(outliers):圖中綠色圓圈。
- 最小值區間(minimum):Q1–1.5*IQR,此範圍中的最小值即為箱形圖下限,超出此範圍即視為離群值。
- 最大值區間(maximum):Q3 + 1.5*IQR,此範圍中的最大值即為箱形圖上限,超出此範圍即視為離群值。
3. 箱形圖與常態分配
4. 導入相關函式
首先導入pandas及seaborn,並執行%config InlineBackend. figure_format = 'retina'以提高jupyter notebook圖形顯示的解析度。
5. 簡單箱形圖
使用單簡的數據1、2、3、4並將數據轉換為資料結構的型態。
計算下四分位數(Q1)、中位數(Q2)、上四分位數(Q3)及IQR。
繪製箱形圖。
繪製橫向箱形圖。
6. 離群值(outlier )
出現離群值情況,數據如下。
有離群值時資料的下四分位數(Q1)、中位數(Q2)、上四分位數(Q3)及IQR。
繪製箱形圖,可以看到上面出現離群值。
超出上限值即為離群值,這裡是超上10即為離群值。
7. 檢視小費數據
繪製小費的箱形圖,可以看到星期六小費有最多的離群值,因此若是服務員在星期六上班是個好選擇。而星期日有較高的中位數及上四分位(Q3 )也是個不錯的選擇。
8. 顏色color
設定顏色,這裡選擇綠色。
9. 色度hue
色度選用性別,用來區分男女給的小費分布。
檢查星期六小費最大值。
檢查星期六女性小費的最大值。
10. 調色板(palette)
檢視「小費」與「日期」,並且使用調色板顏色區分(由淺到深)。
檢視「小費」與「人數」並且使用_r,顏色將由深到淺。
檢視「小費」與「人數」並且使用_d,顏色比使用_r較深。
檢視「小費」與「日期」,增加色度hue,並且使用不同顏色區分。
檢視「帳單金額」與「日期」,並且使用Set,範圍Set1 ~ Set3。
箱形圖第一部分就講到這裡。
感謝閱讀完這篇文章,如果覺得這篇文章對你有幫助請在底下幫我拍個手(長按最多可以拍50下手)。