Masked Autoencoders: 借鏡BERT與ViT的Self-Supervised Learners

Published in

AI Blog TW

22 min readNov 21, 2021

長期以來， deep learning在 NLP與 CV領域建模 (modeling) 擁有各自強大的慣例。在架構部分是比較顯而易見的， NLP領域使用 attention為基礎的Transformer，而 CV領域使用有更強的 inductive biases的 CNN。其實在此之外，還有一個隱性的差異在於預訓練 (pre-training) 模型的方法。

在 NLP領域， self-supervised pre-training是行之有年的方法，如採用 MLM (Masked-Language Modeling) 的 BERT。然而， CV領域即使這兩三年出現許多 self-supervised方法，如 SimCLR、 MoCo、 BYOL等等，最常被採用的還是 supervised pre-training或是 joint training。

MAE (Masked Autoencoders)是 FAIR在 2021年提出，借鏡 BERT的 MLM概念、結合切割影像為 patch的 ViT，精煉出不需要 contractive架構的 self-supervised…

Masked Autoencoders: 借鏡BERT與ViT的Self-Supervised Learners

Written by Jia-Yau Shiau