【Python機器學習】106：使用梯度遞減尋找最佳解的相關演算法

Algorithms for finding the best solution using Gradient Descent

張育晟 Eason Chang

Published in

展開數據人生

10 min readJul 10, 2020

接下來要介紹另外一種在機器學習、深度學習中更為廣泛使用的演算方法稱為「梯度遞減」

關於梯度遞減(Gradient Descent)

我們目前已經會使用兩種方法在給定 h=Xw的前提之下，尋找最佳的w：

sklearn.linear_model 的 LinearRegression() 或 Ridge()

直接呼叫Predictor，fit training data之後就可以把截距項和係數項回傳，就能得到我們的w

自行撰寫正規方程(normal equations)，包含無正規化效果以及有正規化效果的

除了前述這兩種方法以外，還有第三種方法稱為梯度遞減(Gradient Descent)，同樣能夠在給定 ℎ=𝑋𝑤 的前提之下，尋找最佳的 𝑤

什麼是梯度遞減(Gradient Descent)？

梯度遞減(Gradient Descent)是一種透過「迭代」實踐最佳化的演算法。利用一組隨機賦予的 𝑤 作為起始，計算該點每個 𝑤𝑖 對成本函數偏微分的斜率，並依照偏微分斜率的正負值與學習速率，決定目前的 𝑤 應該減少或者增加多少。

在適當的學習速率設定下，經過足夠次數的迭代後可以得到一組逼近成本函數最小的係數組合 𝑤

讓我們先將 ℎ 簡化為只有1個特徵x1，而這個特徵對應到的係數自然就是𝑤1：

給定一組x1與y：

假設我們看不出來 𝑤1是3：

由於現在我們不知道 𝑤1是多少，所以嘗試在 1 到 5 之間窮舉了 100 個 𝑤1，將每個 𝑤1都帶入成本函數 MSE 中計算，接著就會得到100個 MSE：

在我們窮舉的 100 個 𝑤1 之中第 49 個 𝑤1 能夠讓 MSE 最低，其值為2.97979797979798 :

如上圖，我們計算得到的w_1，確實和我們一開始肉眼觀察的3很接近。如果我們想要輸值再更精確一點，可以試著窮舉10000個w_1。

但是這個窮舉的做法是對的嗎？？

這個做法其實有非常大的問題，到底是誰跟你說可以在1到5之間窮舉的？這次不過是運氣好在一個有包含 𝑤1=3 的區間窮舉而已，假如在其他區間窮舉 100 個 𝑤1，像是 5 到 9：

在我們窮舉的 100 個 𝑤1 之中，我還是可以找到一個最低MSE的點：第 0 個 𝑤1 能夠讓 MSE 最低，但這顯然並不是理想中的 𝑤1=3

梯度遞減的演算法就是為了因應這樣窮舉式、大海撈針式的找 𝑤1 方法

我要用什麼判斷的準則來看我現在離我的目標又更遠了還是更進一步了？假設一開始的w1是隨機給定的，那我要怎麼知道到底是要往左邊去找窮舉還是往右邊去找窮舉呢？有個很簡單的概念就是看梯度（斜率）來決定他要往左還右。比如說現在最佳解是三角形，如果我位於菱形位置的梯度（斜率）是正的，所以我就要往左邊移動。一樣的道理，如果我在圈圈的位置，梯度（斜率）是負的，那我就知道接下來我要往右邊窮舉。那這樣就是有意識的窮舉，而不是像無頭蒼蠅隨便亂找w1。