【Python機器學習】103：使用正規方程式解決線性 & 非線性回歸模型

Using Normal Equation to solve linear & nonlinear regression models

張育晟 Eason Chang

Published in

展開數據人生

10 min readMay 22, 2020

介紹完基礎的Scikit-Learn，我們終於可以自己訓練回歸模型啦。一般情況，資料分析師在面對陌生資料的時候，都會先看一下資料的外觀，不管是用describe()函數還是畫直方圖和散步圖。

這一篇會用到大量大聯盟的打者資料，所以我們先瀏覽一下資料大概長什麼樣子。一般在秋季結束的時候，自由球員或是新人都會跟球團簽約，但是要怎麼決定要簽多少金額的合約呢？最好的方法就是跟大家看齊，否則出的太低球員不願意跟你簽約，出的太高球團的薪資空間又會被壓縮。

MLB打者:年薪的直方圖(Histogram plot)：

MLB Player’s Salary is right-tailed, left-skewed

MLB打者:打擊率與年薪的散佈圖(Scatter plot)：

直方圖的結果與職業球員的年資有右尾的現象，說明大聯盟大部分的球員都是拿基本底薪，但還是有少數頂尖球員拿非常高的薪資。最後觀察散佈圖後發現：似乎不是打擊率越高薪水就越高，大部分球員的打擊率都落在0.2～0.35之間。

在介紹回歸之前，先幫大家複習幾個向量、矩陣相乘的特性：

𝑥 與 𝑦 兩個維度相同的向量相乘為 𝑥的轉置矩陣乘以y、亦等於 𝑦 的轉置矩陣乘以x

𝐴 與 𝐵 矩陣相乘後的轉置運算為 (𝐴𝐵)的轉置矩陣=𝐵的轉置矩陣乘以𝐴的轉置矩陣

𝐴𝑥=𝑏 的解為 𝑥=𝐴的inverse矩陣乘以b

反矩陣的函數為np.linalg.inv()，其中linalg為線性代數linear algebra的簡稱

1、線性回歸模型

建立一個輸入向量 𝑥 能夠得到純量 𝑦̂ 輸出的系統 ℎ，𝑥 與 𝑦̂ 符合線性關係，其中向量 𝑤 稱為是系統的參數

第二行公式補了一個常熟項x0(數值都是1的向量)，在機器學習裡x0有個專有名詞叫bias

在上述的公式裡：x 向量是和某球員有關的所有資料(身高、體重、打擊率、盜壘數、失誤等)，w0是截距而剩下的w向量是系統h的參數也是x的係數，最後乘起來就會得到一個輸出𝑦̂，也就是預測出該球員的年薪。而我們的任務就是要訓練系統h，如果系統h表現得好(預測出來的年薪不錯)，則該球員就會和我簽約，如系統h表現得很糟糕，就不會續約。

由於x和w向量都是(n, 1)，根據剛才提到的公式一，其中一個向量要轉置。

𝑤作為系統的參數：

If 𝑤𝑖 為正，表示 𝑥𝑖 這個特徵對 𝑦̂ 的影響為正向
If 𝑤𝑖 為負，表示 𝑥𝑖 這個特徵對 𝑦̂ 的影響為負向
If 𝑤𝑖 為零，表示 𝑥𝑖 這個特徵對 𝑦̂ 沒有影響

上述例子中，x向量只包含了1位球員，假如想要同時看很多球員的年薪呢？這時候x就變成一個 m*n 的特徵矩陣，最後會得到m位球員的年薪。

最後再使用MSE(Mean Squared Error)評估訓練出來的模型好壞：下圖中公式的𝑦̂其實是我用y-validation預測出來的y-predict。預測出來的年薪（𝑦̂）與最後的實際簽約金額做比較，不管是猜高還是低都是錯誤的，因此才要平方。

當預測出來的年薪（𝑦̂）跟實際簽約金額相同，MSE為零。

機器學習的任務：找出一組w向量使得MSE最小。這當然有很多種做法：比如說我們可以窮舉w，然後看哪一組的MSE最小，但這個方法顯然太費時。

我們只需要算出MSE對w的偏微分=0時，w向量的值：

這個求解稱為 normal equations，又稱 closed form solution

這邊我們來手動算一下在給定X_train & y-train的情況下，如何使用normal equations求出w：

一樣使用mlb-batter的資料，只是我們這次在取出特徵矩陣的時候會發現，Python並沒有主動幫我們加入x0，於是我們使用np.ones創立一個(m*1)且數值都是1的向量，再用np.concatenate合併。記得在使用concatenate的時候要加參數axis=1，因為它的預設值為0，會自動幫向量上下合併，但我們要的是左右合併，因此設定axis = 1。

最後，再用上一篇教的train_test_split得出我們X_train, X_validation, y_train & y_validation。套用公式後就可以得到我們的w0(截距項)為-1,545,512，而w1為36,270,111。