解構 Lottery Ticket Hypothesis

Rene Wang
翻滾吧!駭客女孩!
5 min readApr 22, 2020

介紹深度學習的第一個十年時,提到了一篇在 2019 年發表的樂透彩卷假說(Lottery Ticket Hypothesis)的論文。在該論文中,作者們進行一個實驗,進而發現在大型類神經網路中內嵌了一個小的子網路。透過巧妙的重新設定初始值以及基於權重選擇條件,應用遮罩建構出一個稀疏網路後,作者們發現該小型網路在一定的訓練迭代數目後可以達到與原先大型網路一樣的表現。

在這個實驗中,透過權重選擇條件而被選擇做為小型網路中可訓練權重,因為一開始的初始值設定正確,可以看做贏得樂透彩卷般幸運,所以才又被稱為樂透彩卷假說(Lottery Ticket Hypothesis)。為了能夠解釋這個「幸運」的小網路的形成,許多的研究者分別提出他們各自的實驗。

第一篇 Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask,給予樂透彩卷假說的實驗步驟更謹慎的定義。在他們的定義中尋找樂透權重的步驟如下:

  1. 給定一類神經網路架構,隨機初始權重。並設定權重選擇遮罩(Mask)為 1,表示所有的權重都會被選入首回合的訓練中。
  2. Mask Criterion: 利用 Early Stopping 的方式決定首回合的訓練迭代數目。依據一定的遮罩條件(Mask Criterion)選取「樂透權重」。通常 Mask Criterion 是權重初始值和訓練停止時的權重最佳值。在樂透彩卷理論中所採用的是前 top p% 的權重值,這些權重值相對應的遮罩值會被設為 1。
  3. Mask-1 actions:這個步驟是決定當遮罩被設為 1 的權重該採取的行為。這些權重即是所謂的贏得彩卷權重。這些權重會重設為初始值,並在新一回的訓練中,重新訓練。
  4. Mask-0 actions:這個步驟是決定當遮罩被設為 0 的權重該採取的行為。這些權重即是被裁減掉的權重。這些權重會重設為 0,並且不會在新一回的訓練中被更新。

上述的步驟僅執行一次(One shot pruning)的網路裁減(network pruning),若要進行多次裁減,則重複以上步驟即可。

這個簡單的程序,使最佳化的研究者感到迷惑,於是隨後又有許多相關論文被發表,在參考資料 [2] 的作者們,則是嘗試了比 [1] 更多變異的條件而發現三個主要的元素能找到與完整網路相等表現的稀疏子網路。這三個要素誠如論文的名稱,分別是:

  1. Zeros: 有無將 Mask-0 actions 在重新訓練時設為 0,在恢復子網路是一個很重要的 Mask-0 actions 條件。若將 Mask-0 actions 設為原權重初始值,並限制他們在訓練的過程中更新,除非在相當大的權重都被裁減的情況,否則則會導致子網路的表現不盡理想。
  2. Signs:將 Mask-1 action 改變為權重須重設為一個正負號相同(Sign)的常數而非最初的初始值。該實驗發現,即使這個類別的權重沒被重設為最初初始值,僅僅只是正負號相同,也可提高子網路的表現。
  3. Super Mask:在 Mask-0 actions 的實驗中,[2] 的作者們發現藉著給予特定權重適合的遮罩值,單單藉著使用遮罩,便可使未訓練的網路獲得比隨機更好的表現。他們稱呼這個可以學習的遮罩為 Super Mask「註一」學習的部分,Super Mask 先利用 sigmoid 來產生 Bernoulli 分布的 p 參數,遮罩的部分則由前述產生 Bernoulli 分布來決定。他們發現使用可以學習的 Super Mask 和對權重進行 Dynamic Weight Rescaling (乘上所有權重和遮罩值為 1 的比值),其表現和未使用遮罩從頭學起的網路相等。確實的數據,請見下表。
Table 7 in [2] 。前兩行分別為 untrained network + Super Mask。”ini” 代表重新初始被遮罩權重。”S.C.” 代表重新初始被遮罩權重為相同正負號的常數。接著的兩行則是 untrained network + Learned Super Maks。再接著的兩行則是使用 Dynamic Weight Rescaling 來改變權重值的 untrained network。最後一行則是未曾裁減按照最陡梯度下降法所訓練 network。

看到這裏,讓人不得不想呼叫 Dropout 出場,Dropout 是較為簡易的隨機遮罩的版本,主要的功能是藉由隨機裁減網路而產生 ensemble 的方式來調節網路。Dropout 沒有可學習的參數,僅有一個可調參數(hyper-parameter),那就是 Dropout rate。相較於可學習的 Super Mask,後者則可以根據權重的值來決定該 Dropout 的權重。至於,可學習的 Super Mask 是否能成為升級版的 Dropout,則端看樂透彩卷假說的發展。

然而樂透彩卷假說也非無人敢挑戰。在下一篇文章,我們將會提及另一篇文章將會提供與彩卷假說相反的實驗資料。

註釋:

註一:原文為 “masks that can produce better-than-chance accuracy without training of the underlying weights”

參考資料:

[1] The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks(英)
[2] Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask (英)

--

--