回歸分析(Regression analysis)的R平方(R squared)與調整後R平方(Adjusted R squared)

衡量回歸模型表現的兩個指標

邱秉誠
Carrot Cheng的數據分析
Mar 20, 2021

--

R平方(R squared)

R平方(R squared)又稱為判定係數(coefficient of determination),是一種衡量回歸模型表現的指標,代表從獨立變數X可以解釋依變數Y變異的比例。

殘差平方和(residual sum of squares)

『可以解釋的部分』聽起來有點抽象,或許從『不能解釋的部分』來思考會容易許多,對於一個模型來說,什麼叫做『不能解釋的部分』?就是殘差(residual)。我們耳熟能詳的公式每個樣本點的真實值yᵢ-預測值fᵢ即為殘差,為了數學上計算的方便,在加總累計時通常我們都會取平方和,殘差平方和(residual sum of squares)公式如下

因此殘差平方和越大,表示模型解釋力越低,非常容易理解。

總平方和(total sum of squares)

殘差既然是不能解釋的部分,欲解釋的總變異量是什麼?我們以真實值-平均觀察值的平方和表示

在此變異量可以想成是資訊含量,如果今天觀察值是常數,總變異量會是0,毫無資訊含量可言。下方是臺北及恆春的月均氣溫散布圖,藍色直線表示月均氣溫的平均值,依照公式計算臺北月均氣溫的總平方和(total sum of squares)為289恆春地區則為89,舉該簡單例子讓讀者體會數據的變異程度對總平方和(total sum of squares)值的影響

臺北和恆春的月均溫觀測值及其平均值

上述說明殘差平方和(residual sum of squares)就是『不能解釋的部分』,總平方和(total sum of squares)為『欲解釋的總變異量』,因此不能解釋的變異的比例為:

可以解釋的比例,自然就是以1去相減,就得到大家耳熟能詳的R平方(R squared)的公式

附註

事實上總變異平方和就是回歸平方和殘差平方和的組成。

--

--

邱秉誠
Carrot Cheng的數據分析

畢業於台大工業工程所,目前任職於台積電。