論文筆記(2) — 弱監督式學習(Inexact/Inaccurate處理對策)

Martin Huang
機器學習系列
Published in
Jun 6, 2022

承接筆記(1),原文為[1]。繼續整理論文的下半部分。

不精確(Inexact supervision)

不精確的標註,表示資料有標註,而且也是正確的,但不夠準確到訓練所需。其中一個例子就是做物件偵測,但標註只給了圖片有沒有目標物件,卻沒有標出物件的位置。作者則提到另一種例子:利用分子結構預測藥物活性。要成為能作為藥物的分子,需有特定的結構。一個潛在活性分子有可能有數種穩定結構(異構物),但可能只有某些異構物具備足夠活性。然而,人類專家也僅知道那些分子是可能有活性的,並不知道確切是什麼構造讓它有活性。這時的標註就是不精確情況。用數學的方法表示即

資料集

其中X稱為袋(bag),是比較大範圍的特徵。針對任務需求,其可被劃分為較小的,或較精確的特徵x:

而標註

是個二元分類。X袋被分為Y,取決於其內存在有x為Y。如果整個X都沒有x屬於Y,則X才被分為N。然而,具體而言是哪幾個x屬於Y並不清楚。目標則是預測這些看不到的袋的標註。這樣的學習方法稱為多實例(multi-instances learning)。

有各種演算法探討多實例學習,不少都是從監督式學習轉變而來。這邊也介紹幾個常用的方法:

1. 分離法(discrimination):在監督式學習,分類的界線設在一個個實例(x)裡。由於這邊要預測的是X,所以就把原本的整個資料拆分成許多袋(X),然後根據其內的x是否有被分類到Y,決定X的分類。處理的空間在x所在的空間,所以分析的資訊主要根據實例層級(instance level)。

圖片來源:參考資料[2]

2. 代表法(representation transformation):簡單來說就是把每個袋X有代表性的實例x的特徵在空間上標示出來,作為該袋的代表位置。由於袋本身沒有向量性質,所以這邊是想把X用x來代表。

圖片來源:參考資料[3]

3. 範例法(categorization-paradigm):將X用一個向量代替,整個X被投射到這個向量空間,稱為摺疊空間(embedded space);分類在這個空間進行。如此一來,該特徵向量有標註,變成監督式學習的概念。同時,該特徵向量具有X的特性,兼具x(local)和X(global)的資訊。

圖片來源:參考資料[3]

多實例學習已被應用在許多領域,例如圖片分類、文字段落的分級(例如情緒)、廣告郵件分類、醫學診斷、藥物活性預測等等。通常,在這些運用中,一個袋就是一個物件(object),例如一整張圖片、一個文字段落、一封郵件等等。但實例(x)除了藥物活性預測,可以用一個分子代表之外,其他的都要想辦法產生。產生的方法可以由人為決定:例如,在一張圖片中,可以把它裁剪成許多小區域,每一個小區域就是一個實例,區域的大小可以人為決定。又如同文字段落,是要一整段當作一個實例,還是他拆解成許多小段,甚至是以句子為實例,都可以調整。

當然,決定實例的大小或範圍,會影響學習的表現。例如下面這個:

圖片來源:參考資料[1]

這是兩種產生實例的方法:假設整張圖片是8*8單位大小,(a)取2*2為一個實例,在整張圖可以產生4*4=16個實例,且彼此並不重疊。(b)則是取2*2及其上下左右各2*2單位組成一個實例。在允許重疊且必須保持形狀的情況下,總共可以產生3*3=9個實例。這兩個產生實例的方法和結果便不相同。

有研究[4]想預測關鍵實例(key instance),以了解為何一個袋會屬於某個分類。也就是說,這個袋被分到該類是因為某個實例。這對於某些任務很有幫助,例如未詳細標註的影像分類任務,要知道為何該影像被分為某類,如果能找到關鍵實例,通常就是該分類在圖像上的位置

在早期,多實例學習被認為比較擅長一致性高(homogenous)的特徵,亦即實例的分類準則一致。反之,對於浮動性的原則,多實例學習表現比較不好。在實際運用時多半也是在一致性高的特徵下學習,分析的時候將每個實例視為獨立。

不正確(Inaccurate supervision)

不正確的標註如同字面意義,其有標註,而且也夠細,但部分標註錯誤。這表示在錯誤標註的部分,可視為偏誤(error)。一個典型是學習有雜訊的資料(label noise)。在這個概念裡,資料標註其實是都對的,但為了增加模型的穩定性(robust),不讓他過度配適(overfit)在資料裡,因此刻意在標註裡隨機添加一些雜訊,這些雜訊有可能是常態分佈的函數,或者是其他,總之讓標註在仍然保持原本形貌的情況下不再那麼準確。

不過實務上,也常真的有雜訊會干擾標註的情況,而且這個雜訊是天然具有的,而非人為。在這種情況下,雜訊的分布和偏向是不一定清楚的。要處理這個問題,基本的想法是找出被干擾的標註,試著修正它。以下先介紹一個方法:資料編輯(data-editing)。

圖片來源:參考資料[1]

在這個理論中,把每筆訓練資料用Relative neighborhood graph的方式表示,並把資料用線連起來。如果資料間的標註不同,則稱為cut edge。畫好之後再根據cut edge去計算權重。很直觀的可以看到,如果cut edge權重太多,這個資料就很可疑。發現到資料之後,就可以用人為的方式修正,或移除該筆資料。

這個方法用在低微度分布的資料還容易,原因是資料間的距離是好掌握的。但當資料分布在高維空間時,資料變得更鬆散,其「鄰居」的定義就不再那麼可靠了。

不正確的標註在前陣子很常出現的場域是群眾標註。作者提到一些有名的群眾標註專案,例如Amozon的AmazonMechanical Turk (AMT),是讓人將標註專案放在平台上,參與標註的人可以獲得少量的回饋金。這樣的做法立意很好,但有幾個問題讓標註的品質不穩定:1. 標註者來自龐大的社群,素質不一。2. 遇到想賺錢的人,用隨機的方法大量隨機標註。3. 「搗蛋者」故意標註錯誤。由於平台保障標註個人資料,專案擁有者無法追溯標註的人,因此也無法控制。加上某些標註專案有可能對較多的人而言是比較困難的,結果就是資料的標註容易不正確。

應對的策略中,最基本的就是「投票制」。這個方法被廣泛用在叢集模型學習,說穿了就是讓一筆資料標記多次,看看哪一種標註比較多,就當作正解(ground truth)。

另外的想法是如果可以把標註者的程度和資料標記的難度模型化,就可以針對不同的標註者和任務施加不同的權重,由此提高標註的正確性,最終改善學習的表現。好的標註者較常提供正確的標註,因此其權重較高,從投票的概念看起來,就是他一個人可以抵上好幾個人的票。用這樣的方法,可以降低大量隨機給予標註的人帶來的影響。

群眾標註需要成本。因此,也有研究嘗試找出最有效率運用(cost-saving effect)的方法。具體一點的說法就是用最少的群眾標註,達到學習的效果。這中間就是人數(資金) — 正確性的平衡。由此,發展出兩個方向的學習方法:適應性(adaptive),即根據人為的方式即時調整模型;和非適應性。前者須保持任務在線上,後者則不必。

另外還有一些研究在討論如何使群眾標註的行為更正確。有研究嘗試在標註選項中增加「不確定」項,使標註者如果對於選擇沒有信心時可以選擇該項,而不必一定要做出選擇。另外則有研究在假定標註者都想獲得最大利益(錢)的情況下,提出「雙倍或沒有」機制,即,標註者必須相當有自信才能選擇標註,否則一旦標錯,就拿不到該項目的報酬。這段的討論已經感覺偏向到社會行為科學領域去了,在此僅描述帶過。

結論

本篇文章討論弱監督式學習,其本質在於處理應對標註資訊不充足的狀況。這邊主要提到的是三大類狀況:不完整、不精確,以及不正確,但實際上還有其他的監督式學習方法。文章中提出的概念,主要都是以二元分類的任務為設想,然而其中許多概念也可以推廣到多元分類,或者是回歸類的模型。

弱監督式學習算是因應資料在實際上無法達到傳統監督式學習要求的完美狀況,所發展出來的技術。由於現實的限制,這類的技術當然是越來越受到重視,尤其機器學習的運用已經跨到越來越多的領域,而這些領域之中不乏難以有滿足傳統監督式學習標註條件者。由此,無論是機器學習,甚至是深度學習,弱監督式學習都將肯定佔有一席之地。

以上,歡迎大家討論或給予指教。謝謝~

參考資料

[1] Zhi-Hua Zhou, A brief introduction to weakly supervised learning. National Science Review 5: 44–53, 2018. DOI: 10.1093/nsr/nwx106
[2] https://nilg.ai/blog/202105/an-introduction-to-multiple-instance-learning/
[3] Jaume Amores, Multiple instance classification: Review, taxonomy and comparative study. Artificial Intelligence, Volume 201, August 2013, Pages 81–105. DOI: 10.1016/j.artint.2013.06.003
[4] Liu G, Wu J and Zhou ZH. Key instance detection in multi-instance learning. In 4th Asian Conference on Machine Learning, Singapore, 2012; 253–68.

--

--

Martin Huang
機器學習系列

崎嶇的發展 目前主攻CV,但正在往NLP的路上。 歡迎合作或聯絡:martin12345m@gmail.com