Self-training當道:對比Pre-training的優缺點
通常在做大部分deep learning任務時,使用pre-training模型是很常見的做法。隨著近年self-training再次引起研究目光,開始有人思考與其用不同domain的資料做pre-training,或許直接拿來當self-training的unlabeled data會更有效?接續著Kaiming He在2018年的Rethinking ImageNet Pre-training的觀點:即使train from scratch也可以達到使用pre-training模型的高度,甚至pre-training可能會有害於最終任務效能。今年Google將這篇的研究內容延伸,加上近年熱門的self-training與self-supervised learning寫了這樣一篇論文:Rethinking Pre-training and Self-training。
論文大致結論可以概括成一句話:使用supervised或是self-supervised pre-training都打不過self-training。論文實驗除了支持Kaiming He的研究結果,否定pre-training在task transfer的必要性,同時指出:比起拿label資料來pre-training,不如把資料當成unlabeled data,直皆透過self-training (semi-supervised learning) 訓練網路更有效。
論文使用的相關方法也都很新:包含網路架構的EfficientNet、self-supervised learning的SimCLR、self-training與semi-supervised learning的Noisy Student。不過這篇論文比起知曉結論,更值得從他們的實驗中體會pre-training與self-training的差異。
文章難度:★★★☆☆
閱讀建議:本篇文章著重分析 Rethinking Pre-training and Self-training這篇論文的實驗結果,屬於 pre-training與 self-training的進階文章。同時也會簡單介紹 machine learning幾個名詞的差別 (self-supervised learning、self-training等等)與論文中用到的重要方法 (SimCLR、Noisy Student)。
推薦背景知識:pre-training、self-supervised learning (SimCLR)、semi-supervised learning、self-training (Noisy Student)。
Labeled / Unlabeled data
在論文中主要討論的對象為self-training與supervised / self-supervised pre-training,而self-training與self-supervised…