Self-training當道：對比Pre-training的優缺點

Published in

AI Blog TW

18 min readAug 13, 2020

通常在做大部分deep learning任務時，使用pre-training模型是很常見的做法。隨著近年self-training再次引起研究目光，開始有人思考與其用不同domain的資料做pre-training，或許直接拿來當self-training的unlabeled data會更有效？接續著Kaiming He在2018年的Rethinking ImageNet Pre-training的觀點：即使train from scratch也可以達到使用pre-training模型的高度，甚至pre-training可能會有害於最終任務效能。今年Google將這篇的研究內容延伸，加上近年熱門的self-training與self-supervised learning寫了這樣一篇論文：Rethinking Pre-training and Self-training。

論文大致結論可以概括成一句話：使用supervised或是self-supervised pre-training都打不過self-training。論文實驗除了支持Kaiming He的研究結果，否定pre-training在task transfer的必要性，同時指出：比起拿label資料來pre-training，不如把資料當成unlabeled data，直皆透過self-training (semi-supervised learning) 訓練網路更有效。

論文使用的相關方法也都很新：包含網路架構的EfficientNet、self-supervised learning的SimCLR、self-training與semi-supervised learning的Noisy Student。不過這篇論文比起知曉結論，更值得從他們的實驗中體會pre-training與self-training的差異。

Cover photo with Canva (images from here and here)

文章難度：★★★☆☆
閱讀建議：本篇文章著重分析 Rethinking Pre-training and Self-training這篇論文的實驗結果，屬於 pre-training與 self-training的進階文章。同時也會簡單介紹 machine learning幾個名詞的差別 (self-supervised learning、self-training等等)與論文中用到的重要方法 (SimCLR、Noisy Student)。
推薦背景知識：pre-training、self-supervised learning (SimCLR)、semi-supervised learning、self-training (Noisy Student)。

Labeled / Unlabeled data

在論文中主要討論的對象為self-training與supervised / self-supervised pre-training，而self-training與self-supervised…

Self-training當道：對比Pre-training的優缺點

Labeled / Unlabeled data

Written by Jia-Yau Shiau