ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法
今日在GPT (General Pretrained Transformer) 的助攻下,基於attention的Transformer早已是深度學習的主流模型之一。不過在電腦視覺領域,即使ViT (Vision Transformer) 與Swin Transformer相繼展現驚人成果,至今 (2023年) 以CNN (Convolutional Neural Network) 為基礎的架構仍然是非常主流。