ML100Days-023 數值型特徵-去除偏態
4 min readJul 29, 2020
本次重點為理解何為偏態,以及遇到偏態時要如何處理。
文章要點
在機率與統計中,偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正,可以為負,偏度為負/正表示在基率密度函數左側/右側的尾部比右側/左側的長,長尾在左側/右側。偏度為零表示數值相對均勻的分佈在平均值左右兩側,但不意味著一定是對稱分布。圖一顯示了正負偏度。
而在實際講到偏態的公式前,要先講述標準矩的定義,其定義如下:
而偏度的公式就是三階標準矩,完整的式子如下圖:
至於為何遇到偏態需要修正,主因是因為資料服從常態分佈時,機器學習較易學得精準,而修正偏態的方法目前有以下三種:
- 對數去偏
- 方根去偏
- BOX-COX 去偏
圖四顯示對數去偏,可以看到原本正偏的分布,經過對數去偏後轉換為較像常態分佈的資料,圖五則顯示了方根去偏及分布去偏,看到方根去偏後其偏態更加明顯,而利用BOXCOX去偏後其偏態則有明顯下降。
程式要點
- 觀察原始數值的散佈圖, 以及線性迴歸分數
- 觀察使用log1p降偏態時, 對於分布與迴歸分數的影響
- 觀察使用box-cox(λ=0.15)時, 對於分布與迴歸分數的影響
- 觀察使用sqrt(box-cox, λ=0.5)時, 對於分布與迴歸分數的影響
觀察這四個資料分布,發現看起來越接近常態分佈的資料,帶入線性回歸得到的分數越高。
參考資料: