【Python機器學習】105：機器學習中誤差的來源與正規化

張育晟 Eason Chang

Published in

展開數據人生

6 min readJul 9, 2020

Errors in Machine Learning and Regularization

還記得之前在評估模型的好壞時，MSE是怎麼算的嗎？是要用真實情況(test)的結果去和預測比對，但是我們一直以來都是用validation data，畢竟真正的testing data要等事情已經發生完了，才能事後檢查模型的好壞。

除了MSE，大家還記得機器學習的最終任務嗎？

機器學習的任務：於可及範圍的 H中挑選一個與 f最相似的 h

但是 h 與 f 終究是不同的函數，而我們關心的是 𝑦̂ 與 y 間的差異，差異小的h稱為泛化（Generalization）的能力好

h的誤差可能源於 Training error 與 Test error：

Training error 常被稱為誤差（ error or bias）
Test error 亦可被稱為 Generalization error, 亦被稱為泛化誤差，被簡稱為變異（ variance）

如果太過度注重 training data，擴增回歸模型的可及範圍H常伴隨 error 降低，但variance提高。因此機器學習的另一非常重要的任務就是要找平衡。我們試著在回歸模型中紀錄不同高次項參數(從1-10次方)對誤差與變異的影響：

回歸模型 fit 完10次了之後，Training error這個list裡會有10筆資料，是X_train丟到模型h裡，預測出來的值(y_pred)和y_train的差距。可以看到隨著次方越來越高，Training error是越來越小的。

接著看Test error：在前幾次分別加入二次項、三次項，error是有往下降一點，但是隨著加入的次方提高，越到後面error開始飆高。這說明如果模型太複雜，即使 training data 丟到模型裡表現很完美，但是一旦丟testing data，模型的預測結果會非常不準。

h在training data的表現和在validation data的表現各別畫出來：

如上圖，隨著次方提高 Training error確實越來越低，但是 Testing error 卻不斷上升。機器學習實務上在找最佳模型的時候，要找兩個error都是低點的時候，單以這個case來說，似乎加入3次項為最好的模型。一旦再加入更高次項到模型裡，即使 Training error 變得非常低，但是 Testing error 已經不知道飆到哪裡去了，這也是所謂的過度配飾(Overfitting)，亦即此模型泛化的能力非常的差。