全景分割(Panoptic Segmentation)系列文章-Part Ⅰ: 認識全景分割

S.H.H
TryTech
Published in
7 min readDec 17, 2020
擷取自文章-Kirillov, A., He, K., Girshick, R., Rother, C., & Dollár, P. (2019). Panoptic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 9404–9413).

本文為整理摘要提出這個名詞的研究[1],並向讀者簡單介紹何謂全景分割。

1. 全景分割是什麼?

什麼是全景分割(Panoptic Segmentation, PS)?簡言之就是結合語義分割(Semantic Segmentation)預測”stuff class”與實例分割(Instance Segmentation)預測”thing class”的目標,基本上就是分類圖片中每一個像素點(semantic label),而屬於”thing class”的則要再進一步區分同一類別中不同的個體(instance id),雖然說要幫全部的像素點分類,但還是有設所謂的void labels來避免那些不屬於任何一類或是模糊難辨別的像素點。

簡單來說:語義分割+實例分割 -> 全景分割

用Google Map上街景圖跑Detectron2上的Panoptic-DeepLab預測圖

如上圖所示(從辨識效果來看我應該某個環節出錯了😂),全景分割除須預測常見的背景整體分割外,即”stuff class”,不特別區分個體,亦會區分前景物件的個體,那因為這個名詞主要是由Facebook研究團隊於CVPR 2019所提出[1] ,Detectron2的官方教學就直接有示範怎麼使用,後續也有其他研究利用Detectron2工具推出自己的模型研究,像是CVPR 2020由Google Research與UIUC研究人員提的Panoptic-DeepLab,現在也被收錄到Repo下的Projects目錄中。(想知道Detectron2是什麼可以參考我之前的文章)

2. 過去發展的困境-缺少代表性指標與資料集

全景分割不算是一個全新的概念,早前就體現於scene parsing, image parsing或holistic scene understanding,但可能受限於未有適當的評估指標或是公開資料集,而未受到等同於語義或實例分割的關注。那全景分割到底該如何整合語義分割和實例分割,並開創屬於自己的道路呢?研究[1]提出的關鍵就是一個具代表性的評量指標Panoptic Quality (PQ),透過該指標將能同時考量分割遮罩的IoU品質以及類別預測的準確性,該指標在考量以下三點:

  • Completeness:能同時評估”stuff class”與”thing class”的完整性問題。
  • Interpretability:有實際意義並可用於溝通與理解模型表現。
  • Simplicity:設計簡單,便於其他研究重現或使用。

之後所設計的公式如下,該公式僅將預測遮罩與真值間IoU大於0.5的視為True Positive (TP)。

擷取自研究[1]

公式可進一步可拆解成兩項-SQ和RQ:

SQ即類似於mIoU,而RQ則與常見的F1-Score形式相同。擷取自研究[1]

雖說近似於語義分割與實例分割的指標,但文中特別強調”PQ is not a combination of semantic and instance segmentation metrics.”,主要還是因為計算PQ時是設定 IoU=0.5作為區分正確與否的重要依據,且不管是SQ或RQ都會考慮到”stuff class”與”thing class”的預測結果。若從僅考慮”stuff class”的語義分割來看,mIoU是完全看各類別預測遮罩和真值去計算IoU,再取平均,從而完全忽略物件個體差異;而從僅考慮”thing class”的實例分割來看,常用的指標AP會需要模型預測的信心分數來估算precision/recall的曲線,這又無法適用於語義分割,所以PQ之所以能帶動後續一些研究的提出並被用來評估模型表現,在於他整合了語義與實例分割所看重的預測目標,而且公式並沒有變得更複雜,反而盡可能簡單以便於其他研究者重現使用。

3. PQ的可行性?

文中利用了三個能被全景分割所使用的資料集-Cityscapes, ADE20k, and Mapillary Vistas,作了Human Consistency Study,讓當初的標註工人再來重新標註數張照片,並將其中之一作為真值,另一個當作預測,結果發現在各個資料集上,工人智慧對”stuff class”與”thing class”在PQ, SQ, RQ的表現都很相近,既使註解個體物件應較為困難,若進一步將各類別的PQ列出,的確符合直覺是stuff獲得較好的PQ表現,但可以觀察兩類別表現分布仍維持不錯的平衡,代表指標並無特別獨厚哪一個類別的預測,此外亦針對物件的大小、IoU設為0.5是否合理、RQ與SQ的平衡等作討論,可參考原文說明,經過這些討論才得出最後精練的指標公式。

擷取自研究[1]

4. PQ的Baseline和未來發展

文章後段亦取得各資料集針對語義分割與實例分割表現最佳的模型,並將兩者對同一張圖片所預測的結果融合,再以PQ對結果進行評估,評估後的數值與先前工人智慧的比較如下表,可以看出目前仍與人的表現相差甚遠,作者希望透過這樣提出可信指標以重新匯集研究方向,並延伸至既有資料集得以應用在全景分割上,期待未來研究者們能基於這樣更為明確的研究目標上提出一end-to-end模型以解決兩種類別預測問題,或是在PS根本的預測限制下(如遮罩不重疊),建構一些能精煉模型預測的方法或理論。在文章推出後,目前於資料集競賽上早已出現超越這個表現的模型,這些相關方法或模型結構就留待之後文章再好好整理跟大家介紹!

STOA方法與工人智慧於PQ表現的比較

參考文獻

[1] Kirillov, A., He, K., Girshick, R., Rother, C., & Dollár, P. (2019). Panoptic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 9404–9413).
[2] Cheng, B., Collins, M. D., Zhu, Y., Liu, T., Huang, T. S., Adam, H., & Chen, L. C. (2020). Panoptic-deeplab: A simple, strong, and fast baseline for bottom-up panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12475–12485).

--

--