[paper] GroupViT:跟pixel-wised labeling 說再見

Annorita
Annorita’s playground
Mar 16, 2022

Semantic Segmentation 的訓練,仰賴 pixel-level 的標記,假如一張圖片是 64 x 64,你就必須要針對 4096 個 pixel 標記出他們各是屬於哪一類。雖然有一些 tool 可以畫圖選取區塊來標記,但整體的訓練脫離不了那種笨笨的感覺,對我來說就像是只會背答案的學生一般。

因此看到 GroupViT,讓我太驚艷了!他利用 text encoder 對文字敘述做學習,並拿來和影像部分做 contrastive learning,利用文字的語意理解,讓 Semantic Segmentation 擺脫了labeling 的繁雜工作。訓練完成後,即使是 zero-shot 仍還可以做得很好。

名字中的 Group的意義則是,在多層的學習中,最底層先學習把 pixel 組成小塊小塊,例如組出貓咪的手和腳,越往上層,這些相鄰的 group 假如代表同一個物件,就會 merge 在一起,例如貓咪的手和腳都是貓咪的一部分,因此 merge 在一起。如此一來,越往上層,就越能圈出物件的全部。

那麼要怎麼決定兩個 segment 是不是屬於同一個物件呢?他們藉由比較 group token 和 segments token 的 similarity,假如是相像的,代表同一類,就可以 merge。

藉由不斷地 grouping 把 pixel 組起來變成 object

如此一來,我們就可以用強大的 NLP 語意理解,來幫助影像,圈出想要的那個區塊。

這篇 paper 是第一作者 Jiarui 在 NVIDIA 實習時做的,上了 CVPR’22,酷斃啦!

NLP 和 CV 的組合,讓 CV 變得更強大了,也開始有了人機之間的迷幻色彩,脫離背答案的時代了。

你讀過其他 CV 和 NLP 結合的酷 paper 嗎?和我分享!

--

--