Look into Person簡介 — Look into Person Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing

CVPR 2017 paper

Ke Gong, Xiaodan Liang, Dongyu Zhang, Xiaohui Shen, Liang Lin, “Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing”, arXiv:1703.05446

Github Code(Caffe):https://github.com/Engineering-Course/LIP_SSL

LIP dataset : http://www.sysu-hcp.net/lip

簡介

提出一個大型的人體架構(Human parsing)資料集 — Look into Person (LIP) 以及提出人體架構分割的模型。

資料集包含 50,462 張圖片,

共有 20 個 Label (19個 + 1個背景),

和當時既有的人體資料集相比,

此資料集的圖片數量是相當驚人的。

而第二個貢獻人體架構分割,

它主要的想法是要解決架構上的誤判,

如左手接到右手臂等等的問題,

下圖的(b)有著右手掌接到左手臂的問題,

而此論文提出的模型©則可以解決此種問題。

而解決這個問題所提出的 Model 稱之為 Self-supervised Structure-sensitive Loss(SSL),

透過 SSL 的方法希望對於人體的架構有著更好的理解,

避免出現上面那種不合邏輯的預測。

資料庫細節

此 Dataset 是從 Microsoft COCO 的資料集中提取人物的部分組成的,

並且將那些圖片定義20個Label(包含背景), 為他們標註每個 pixel 是屬於哪個 label。

也因為是從 Microsoft COCO 資料集中提取的,

因此是包含不同背景以及有著許多不同姿勢的資料集。

並且對圖片有做統計,

備註:Occlusion 有人將它稱作遮擋,這部分有錯的話請指正。

在研究中有發現使用以往的模型在只有人物背面(Back-View)或是人物的頭部消失(Head-missed)的這兩種情況下,

準確度會有明顯下降的問題,

可看下圖,展示在什麼情況下準確度會偏低。

除此之外因為此資料集還有將衣服、鞋子等等的物品當做一個類別,

因此在處理這些小尺寸的類別時,要能夠準確預測這些物品也是相對困難的。

下圖有做類別數量的統計。

除了上述資料集的敘述之外,

他們發現現存的人體架構資料集並沒有提供一個伺服器讓人上傳 secret testing dataset 的結果,

因此此資料集有開設一個網站,讓人提交結果至網站上,

此 secret testing dataset 的 Ground truth 是不公開的,

因此大家能夠透過這個平台來公平的測量自己的模型準確度如何,

以及可以知道自己的模型是否有過擬合(over-fitting)的問題。

方法 — Self-supervised Structure-sensitive Loss(SSL)

此模型是基於既有的 Semantic segmentation model 做改進,

主要是基於 DeepLabv2 以及 Attention 的 model 增加 Self-supervised Structure-sensitive Loss(SSL)。

以往的模型只透過預測出來的結果, 對 GT 做 Segmentation loss。

但此篇論文提出,應該要對人體架構去做探討,

避免不會有一開始的右手掌接到左手臂上面去的問題,

因此架構圖如下,

主要想法就是透過各個部位的關節點去添加一個 Loss function -> Joint structure loss。

定義 9 個關節點為頭、上身、下身、左手、右手等等。。。

而實際上得到關節點的方法是透過各個類別的組成,

舉例來說頭的關節點位置是由帽子、頭髮、太陽眼鏡、臉組成後的中心點©,

因此會有 9 個中心點 (C1…C9),

備註:

實際上使用是採用 Attention map 的形式,
這部分從論文上看,我個人是認為寫的不夠詳細。
並沒有詳細說明 C 的求法, 上面的 Generated joints 的圖片與我的想像不太一樣,
因為如果是密集的點的話, 那為什麼要用 Attention map, 而不用單一個 point 座標去做計算。
論文上還有提到當關節點不存在於一張圖像時, 其關節點的 Attention map 全部會補0,

LParsing 指的是預測出來的 Segmentation 對 GT 做 pixel-wise softmax loss,

這邊和以往 Segmentation model 做的 loss function 一樣, 因此不贅述。

而上面幾個公式很直覺的理解就是,當架構(L-joint)與 GT 相差很多的時候 loss function 就會變大,

透過這種方式來達成對人體的架構做學習的想法 => Structure-sensitive Model。

成果圖

參考資料:

arXiv:Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing

Github:LIP_SSL

LIP dataset

同步發表於:XiaoSean的個人網站