回歸分析(Regression analysis)的R平方(R squared)與調整後R平方(Adjusted R squared)
衡量回歸模型表現的兩個指標
R平方(R squared)
R平方(R squared)又稱為判定係數(coefficient of determination),是一種衡量回歸模型表現的指標,代表從獨立變數X可以解釋依變數Y變異的比例。
殘差平方和(residual sum of squares)
『可以解釋的部分』聽起來有點抽象,或許從『不能解釋的部分』來思考會容易許多,對於一個模型來說,什麼叫做『不能解釋的部分』?就是殘差(residual)。我們耳熟能詳的公式每個樣本點的真實值yᵢ-預測值fᵢ即為殘差,為了數學上計算的方便,在加總累計時通常我們都會取平方和,殘差平方和(residual sum of squares)公式如下
因此殘差平方和越大,表示模型解釋力越低,非常容易理解。
總平方和(total sum of squares)
殘差既然是不能解釋的部分,欲解釋的總變異量是什麼?我們以真實值-平均觀察值的平方和表示
在此變異量可以想成是資訊含量,如果今天觀察值是常數,總變異量會是0,毫無資訊含量可言。下方是臺北及恆春的月均氣溫散布圖,藍色直線表示月均氣溫的平均值,依照公式計算臺北月均氣溫的總平方和(total sum of squares)為289,恆春地區則為89,舉該簡單例子讓讀者體會數據的變異程度對總平方和(total sum of squares)值的影響。
上述說明殘差平方和(residual sum of squares)就是『不能解釋的部分』,總平方和(total sum of squares)為『欲解釋的總變異量』,因此不能解釋的變異的比例為:
可以解釋的比例,自然就是以1去相減,就得到大家耳熟能詳的R平方(R squared)的公式。
附註
事實上總變異平方和就是回歸平方和及殘差平方和的組成。