ML100Days-023 數值型特徵-去除偏態

4 min readJul 29, 2020

--

本次重點為理解何為偏態，以及遇到偏態時要如何處理。

文章要點

在機率與統計中，偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正，可以為負，偏度為負/正表示在基率密度函數左側/右側的尾部比右側/左側的長，長尾在左側/右側。偏度為零表示數值相對均勻的分佈在平均值左右兩側，但不意味著一定是對稱分布。圖一顯示了正負偏度。

圖一偏度

而在實際講到偏態的公式前，要先講述標準矩的定義，其定義如下:

圖二標準矩定義

而偏度的公式就是三階標準矩，完整的式子如下圖:

圖三偏態公式

至於為何遇到偏態需要修正，主因是因為資料服從常態分佈時，機器學習較易學得精準，而修正偏態的方法目前有以下三種:

對數去偏
方根去偏
BOX-COX 去偏

圖四顯示對數去偏，可以看到原本正偏的分布，經過對數去偏後轉換為較像常態分佈的資料，圖五則顯示了方根去偏及分布去偏，看到方根去偏後其偏態更加明顯，而利用BOXCOX去偏後其偏態則有明顯下降。

圖四對數去偏

圖五方根/BOX-COX去偏

程式要點

觀察原始數值的散佈圖, 以及線性迴歸分數
觀察使用log1p降偏態時, 對於分布與迴歸分數的影響
觀察使用box-cox(λ=0.15)時, 對於分布與迴歸分數的影響
觀察使用sqrt(box-cox, λ=0.5)時, 對於分布與迴歸分數的影響

圖六原始資料前5行

圖七數值型資料前5行

圖八 LotArea分布

圖八取log1p的LotArea分布

圖九 BOX-COX(lmbda=0.15)的LotArea分布

圖九 BOX-COX(lmbda=0.5)的LotArea分布

觀察這四個資料分布，發現看起來越接近常態分佈的資料，帶入線性回歸得到的分數越高。

參考資料:

机器学习数学笔记|偏度与峰度及其python实现_遗世独立的乌托邦-CSDN博客_python计算偏度

机器学习中的数学觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处本博客为七月在线邹博老师机器学习数学课程学习笔记矩对于随机变量X,X的K阶原点矩为 E(Xk)E(X^{k})X的K阶中心矩为 ...

blog.csdn.net

偏度

在概率論和統計學中，偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正，可以為負或者甚至是無法定義。在數量上，偏度為負（負偏態）就意味着在概率密度函數…

zh.wikipedia.org

標準矩

在機率論和統計學中，一個機率分布的標準矩是經過標準化後的中心矩（通常是較高階的中心矩）。標準化通常是將其除以標準差的過程，這樣做可以使得標準矩對縮放和離散程度皆能保持一致，在比較不同機率分布的形狀時更為方便。

zh.wikipedia.org

ChengChe-Hsieh

Written by ChengChe-Hsieh

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams