Masked Autoencoders: 借鏡BERT與ViT的Self-Supervised Learners

Jia-Yau Shiau
AI Blog TW
Published in
22 min readNov 21, 2021

--

長期以來, deep learning在 NLP與 CV領域建模 (modeling) 擁有各自強大的慣例。在架構部分是比較顯而易見的, NLP領域使用 attention為基礎的Transformer,而 CV領域使用有更強的 inductive biases的 CNN。其實在此之外,還有一個隱性的差異在於預訓練 (pre-training) 模型的方法

在 NLP領域, self-supervised pre-training是行之有年的方法,如採用 MLM (Masked-Language Modeling) 的 BERT。然而, CV領域即使這兩三年出現許多 self-supervised方法,如 SimCLRMoCoBYOL等等,最常被採用的還是 supervised pre-training或是 joint training。

MAE (Masked Autoencoders)是 FAIR在 2021年提出,借鏡 BERT的 MLM概念、結合切割影像為 patch的 ViT,精煉出不需要 contractive架構的 self-supervised

--

--