[paper] GroupViT:跟pixel-wised labeling 說再見

Published in

Annorita’s playground

Mar 16, 2022

Semantic Segmentation 的訓練，仰賴 pixel-level 的標記，假如一張圖片是 64 x 64，你就必須要針對 4096 個 pixel 標記出他們各是屬於哪一類。雖然有一些 tool 可以畫圖選取區塊來標記，但整體的訓練脫離不了那種笨笨的感覺，對我來說就像是只會背答案的學生一般。

因此看到 GroupViT，讓我太驚艷了！他利用 text encoder 對文字敘述做學習，並拿來和影像部分做 contrastive learning，利用文字的語意理解，讓 Semantic Segmentation 擺脫了labeling 的繁雜工作。訓練完成後，即使是 zero-shot 仍還可以做得很好。

名字中的 Group的意義則是，在多層的學習中，最底層先學習把 pixel 組成小塊小塊，例如組出貓咪的手和腳，越往上層，這些相鄰的 group 假如代表同一個物件，就會 merge 在一起，例如貓咪的手和腳都是貓咪的一部分，因此 merge 在一起。如此一來，越往上層，就越能圈出物件的全部。

那麼要怎麼決定兩個 segment 是不是屬於同一個物件呢？他們藉由比較 group token 和 segments token 的 similarity，假如是相像的，代表同一類，就可以 merge。

如此一來，我們就可以用強大的 NLP 語意理解，來幫助影像，圈出想要的那個區塊。

Project page: https://jerryxu.net/GroupViT/

Paper: https://arxiv.org/abs/2202.11094

這篇 paper 是第一作者 Jiarui 在 NVIDIA 實習時做的，上了 CVPR’22，酷斃啦！

NLP 和 CV 的組合，讓 CV 變得更強大了，也開始有了人機之間的迷幻色彩，脫離背答案的時代了。

你讀過其他 CV 和 NLP 結合的酷 paper 嗎？和我分享！

[paper] GroupViT:跟pixel-wised labeling 說再見

Written by Annorita