StatQuest 筆記分享: 人工神經網路2 — 反向傳播法

Published in

IMU Framework Design

6 min readDec 30, 2022

--

承接上篇，輸入節點(Input Node)數值在權重(Weight)、偏誤(Bias)以及活化函數(Activation Function)的放大、縮小、轉置和調整下來得到輸出值。

Josh在本影片要來談談在反向傳播法(Backpropagation)中，權重、偏誤是如何被優化的? 本影片會概述反向傳播法的主要概念:

使用連鎖法則(Chain Rule)來計算導數(Derivatives)。

2. 使用得到的導數搭配梯度下降法(Gradient descent)得到優化的參數

首先，Josh先命名每個權重(w1, w2, w3 and w4) 和偏誤 (b1, b2 and b3)。通常來說，反向傳播法會從最後的參數開始進行。然而，由於此影片旨在討論反向傳播法的主要概念，因此Josh將討論如何在已知其他所有最佳解的情況下估算b3。(此影片中，綠色數值是優化後的，紅色則為尚未優化過的數值。)

如同Part1影片所教的，將劑量0至1的輸入值一一乘上w1 (3.34)後加上b1(-1.43)，並代入Softplus活化函數，最後乘上w3 (-1.22)後得到以下的藍色曲線。

依照相同的步驟處理w2、b2和w4得到橘色曲線。

將藍色和橘色曲線合併後可得到以下綠色曲線(預測曲線)。

由於我們還尚未知道b3的數值，Josh先賦予其一個初始值b3 = 0。

我們可以計算出殘差平方(Squared Residuals)的總和來量化並評估目前的模型的優劣。殘差(Residual)是實際值和預測值之間的差異。

以b3 = 0為例，這時的殘差平方和為SSR = 20.4。

我們可以手動微調b3且算出不同情況的SSR，並將數值描點出來。

手動描點看似直白簡單但卻很耗時間，因此我們要借助上述的梯度下降法得到能優化SSR的b3。

回到原本SSR的公式，我們知道SSR = (observed1 — predicted1)² + (observed2 — predicted2)² + (observed3 — predicted3)²。我們可以將其簡化為以下的summation notation。

接著，我們要將預測值(predicted1, predicted2…，也就是綠色曲線)拆解成藍色曲線+橘色曲線+b3。

由於我們要用梯度下降法得到最佳的b3，我們必須對b3進行偏微分。由於SSR裡的predicted裡有b3的元素，我們會需要利用連鎖法則來解SSR對b3的偏微分。

我們可以將SSR對b3的偏微分拆解為: SSR對predicted的偏微分 *predicted對b3的偏微分。

SSR對predicted的偏微分: 利用連鎖法則能得到以下結果。

predicted對b3的偏微分: predicted = 藍色曲線+橘色曲線+b3；藍色曲線和橘色曲線可視為已知常數且與b3互相獨立，因此對b3為分會得到0。b3對b3為分會得到1。

依此邏輯可得到SSR對b3的偏微分的結果為下。

回到範例，在b3 = 0的情況，SSR對b3的偏微分為 -2 * (0 — -2.6) * 1 + -2 * (0 — -1.6) * 1 + -2 * (0 — -2.6) * 1 = -15.7。而這數值也是原本粉紅曲線的在b3 = 0這點的斜率(Slope) 。

在逐步調整的過程中，可以設定學習率(Learning Rate)，以調整學習步長(Step Size)。在學習過程中，如果學習率太小，會造成學習步長小，容易訓練緩慢，學習率太大又容易造成學習步長太大而學習無法收斂。Josh在此影片中設定學習率為0.1，學習步長 = 0.1 * -15.7 = — 1.57。

這裡的學習步長是用來調b3，新的b3 = 目前的b3 — 學習步長。因此，新的b3 = 0 — (-1.57) = 1.57。得到新的b3後，也能調整原本的綠色曲線(預測曲線)往X軸移動。

獲得新的預測曲線後，就可以進行下一階段的偏微分，流程一樣

求SSR對b3的偏微分: -2 * (0 — -1.03) * 1 + -2 * (0 — -0.03) * 1 + -2 * (0 — -1.03) * 1 = -6.26 (粉紅曲線的在b3 = 1.5 這點的斜率(Slope) )。
求新的學習步長 = — 6.26 * 0.1 = -0.626。
求新的b3 = 1.57 — (-0.626) = 2.19。

反覆上述操作直到學習步長接近0。以此範例而言，在b3 = +2.61時學習步長會最接近0。

Thank you! Enjoy it :)

Machine Learning

Neural Networks

Gradient Descent

Informula

Written by Informula

Editor for

IMU Framework Design

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams