ML100Days-023 數值型特徵-去除偏態

ChengChe-Hsieh
4 min readJul 29, 2020

--

本次重點為理解何為偏態,以及遇到偏態時要如何處理。

文章要點

在機率與統計中,偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正,可以為負,偏度為負/正表示在基率密度函數左側/右側的尾部比右側/左側的長,長尾在左側/右側。偏度為零表示數值相對均勻的分佈在平均值左右兩側,但不意味著一定是對稱分布。圖一顯示了正負偏度。

圖一 偏度

而在實際講到偏態的公式前,要先講述標準矩的定義,其定義如下:

圖二 標準矩定義

而偏度的公式就是三階標準矩,完整的式子如下圖:

圖三 偏態公式

至於為何遇到偏態需要修正,主因是因為資料服從常態分佈時,機器學習較易學得精準,而修正偏態的方法目前有以下三種:

  • 對數去偏
  • 方根去偏
  • BOX-COX 去偏

圖四顯示對數去偏,可以看到原本正偏的分布,經過對數去偏後轉換為較像常態分佈的資料,圖五則顯示了方根去偏及分布去偏,看到方根去偏後其偏態更加明顯,而利用BOXCOX去偏後其偏態則有明顯下降。

圖四 對數去偏
圖五 方根/BOX-COX去偏

程式要點

  • 觀察原始數值的散佈圖, 以及線性迴歸分數
  • 觀察使用log1p降偏態時, 對於分布與迴歸分數的影響
  • 觀察使用box-cox(λ=0.15)時, 對於分布與迴歸分數的影響
  • 觀察使用sqrt(box-cox, λ=0.5)時, 對於分布與迴歸分數的影響
圖六 原始資料前5行
圖七 數值型資料前5行
圖八 LotArea分布
圖八 取log1p的LotArea分布
圖九 BOX-COX(lmbda=0.15)的LotArea分布
圖九 BOX-COX(lmbda=0.5)的LotArea分布

觀察這四個資料分布,發現看起來越接近常態分佈的資料,帶入線性回歸得到的分數越高。

--

--