UNITER: UNiversal Image-TExt Representation Learning

Moris
Computer Vision Note
13 min readDec 25, 2023

--

UNITER(UNiversal Image-TExt Representation)是由微軟亞洲研究院提出的一種統一的Image-Text表示模型,其主要目標是實現更好的跨模態理解和表達,通過在四個圖像-文本數據集(COCO、Visual Genome、Conceptual Caption 和 SBU Captions)上進行大規模預訓練,通過聯合多模態嵌入為下游的視覺+語言任務提供動力。

作者設計了四個預訓練任務:

1. Masked Language Modeling(MLM)

2. Masked Region Modeling(MRM)

3. Image-Text Matching(ITM)

4. Word-Region Alignment(WRA)

與之前將joint random masking應用於這兩個模態的工作不同,我們在預訓練任務中使用conditional masking(例如,masked language/region建模以對圖像/文本的完全觀察為條件)。除了用於全局image-text對齊的ITM外,作者還提出了通過使用Optimal Transport(OT)的WRA,以明確地在預訓練期間鼓勵單詞和圖像區域之間的細粒度對齊。

Outline

  1. Model Architecture
  2. Pre-training Tasks
  3. Pre-training Datasets
  4. Experiments

1. Model Architecture

1.1 Model Overview

給定一個圖片句子對,UNITER將圖片的視覺區域和句子的文本標記作為輸入,分別利用圖像嵌入器和文本嵌入器提取它們的特徵嵌入。隨後,提取出的嵌入被送入Transformer以獲得跨模態的上下文嵌入。

由於Transformer不包含位置信息,因此還需要額外提供標記/區域的位置信息。

同時作者引入了四個主要任務來預訓練我們的模型:基於圖像區域條件下的Masked Language Modeling(MLM),基於輸入文本條件下的Masked Region Modeling(MRM),Image-Text Matching(ITM)和Word-Region Alignment(WRA)。

如圖1所示,作者的MRM和MLM與BERT類似,從輸入中隨機遮罩一些單詞或區域,並學習恢復這些單詞或區域作為Transformer的輸出。

另外還通過ITM學習了整個輸入圖像和句子之間的實例級對齊。訓練期間,作者同時採樣正和負圖像-句子對,並學習它們的匹配分數。此外,為了在單詞標記和圖像區域之間提供更細粒度的對齊,作者通過使用最優傳輸提出WRA,有效地計算出將上下文圖像嵌入傳輸到單詞嵌入的最小成本(反之亦然)。

1.2 Image Embedder

使用預先訓練好的 Faster R-CNN 提取圖片中的所有區域的總體 ROI 特徵,同時使用 7D 向量 [ x1, y1, x2, y2, w, h, w∗h ](歸一化的左上/左下/右上/右下座標、寬度、高度和面積)表示每個 ROI 的位置。然後,將視覺和位置信息分別輸入不同的全連接層,將它們映射到相同的嵌入空間,並分別應用 Layer Normalization。接著,將它們相加,通過 Layer Normalization 層後,就獲得了提取的圖像特徵。

1.3 Text Embedder

類似於 BERT,使用 WordPiece 對輸入句子進行分詞,將 token 和 position 分別通過嵌入層後得到單詞嵌入和位置嵌入。將它們相加後,通過 Layer Normalization 層得到文本特徵。

1.4 Modality embedding

Modality embedding類似於 BERT 中的段落嵌入,用於幫助模型區分文本輸入和視覺輸入。在 Image Embedder 和 Text Embedder 最後的 LN 層之前都會加上 Modality embedding(模態嵌入在圖中被省略了)。

2. Pre-training Tasks

2.1 Masked Language Modeling(MLM)

遮罩語言建模(MLM)的方法是以15%的概率隨機選擇輸入詞進行遮罩,然後用特殊標記[MASK]替換被遮罩的詞。 其目標是基於周圍的詞和所有影像區域的觀察,通過最小化負對數似然來預測遮罩的單詞:

其中, θ 為可訓練參數。 每對(w、v)都是從整個訓練集D中採樣的。

2.2 Image-Text Matching (ITM)

在ITM中,一個額外的特殊標記[CLS]被輸入到模型中,表示兩個模態的融合表示。 ITM的輸入是一個句子和一組影像區域,輸出是一個二值標籤,表示採樣對是否匹配。

作者選取[CLS]標記作為輸入Image-Text對的共同表示,然後將其輸入一個FC層和一個sigmoid函數來預測0到1之間的分數。 我們將輸出分數表示為s θ (w,v),ITM監督位於[CLS]標記之上。

在訓練期間,作者在每一步從數據集D中抽取一個正或負的對(w,v),負對是通過用其它樣本中隨機選擇的影像或文本替換配對樣本中的影像或文字來產生的。作者應用binary cross-entropy損失進行優化:

其中,y是binary標籤,表示是否匹配。

2.3 Word-Region Alignment (WRA)

作者為WRA使用最優傳輸,其中一個傳輸計劃T是優化w和v之間的對齊。OT具有幾個特殊的特點,使其稱為WRA的好選擇:
(1)自歸一化:T的所有元素和為1,
(2)稀疏性:當精確求解時,OT產生一個最多包含(2r−1)非零元素的稀疏解T,其中r=max(K,T),導致一個更可解釋和穩健的對齊。
(3)效率:與傳統的線性規劃求解器相比,我們的解決方案可以很容易地通過只需要矩陣向量積的迭代過程得到,因此很容易使用於大規模的模型預訓練。

具體地,(w,v)可以被考慮為兩個離散分佈µ,ν,µ和ν之間的OT距離(因此也將(w,v)對的對齊損失)定義為:

矩陣T表示為傳輸計劃,解釋了兩種模態間的對齊,不幸的是,在T上的精確最小化是難以計算的,我們認為IPOT算法近似於OT距離。在求解T後,OT距離作為WRA損失,可以用來更新參數θ。

2.4 Masked Region Modeling(MRM)

類似於MLM,作者也採樣影像區域,以15%的概率遮罩視覺特徵,訓練模型通過剩餘的區域和所有的單詞預測遮罩區域。 遮罩區域的視覺特徵被零代替。 與用離散標籤表示的文字標記不同,視覺特徵是高維的和連續的,因此不能通過類似然法來進行監督,相反,作者為MRM提出了三個變體,它們具有相同的目標基礎:

(1) Masked Region Feature Regression (MRFR)
MRFR學習將每個遮罩區域的Transformer輸出回歸到其視覺特徵。具體而言,我們應用一個全連接(FC)層,將其Transformer輸出轉換為一個與輸入ROI池化特徵相同維度的向量。然後,對這兩者之間進行L2回歸:

(2) Masked Region Classification (MRC)
MRC學習預測每個遮罩區域的對象語義類。首先將遮罩區域的Transformer輸出餵入一個全連接(FC)層,以預測K個對象類的分數,然後通過softmax函數進一步轉換為一個normalized的分佈。需要注意的是,由於未提供物件類別,因此沒有真實標籤。

因此,作者使用Faster R-CNN的對象檢測輸出,將檢測到的物件類別(具有最高的信心分數)作為遮罩區域的標籤,將其轉換為一個one-hot向量。最終的目標是最小化cross-entropy(CE)損失。

(3) Masked Region Classification with KL-Divergence (MRC-KL)
MRC使用Faster R-CNN輸出的分最高的類別作為硬標籤,而MRC-KL則是利用Faster R-CNN輸出的類別概率分佈作為軟標籤,在Transformer的輸出經過FC後計算其與類別概率分佈的KL散度作為損失。

3. Pre-training Datasets

UNITER 的預訓練任務在4個視覺加語言(V+L)數據集的圖像-語句對上進行:COCO、Visual Genome(VG)、Conceptual Captions(CC)和SBU Captions。

為了研究不同數據集對預訓練的影響,作者將上述四個數據集分為“In-domain”數據和“Out-of-domain”數據。“In-domain”數據由COCO中的圖像標題數據和VG中的密集標題數據組成,將它們稱為“In-domain”數據是因為大多數V+L任務都是建構在這兩個數據集上。

為了構建一個公平的數據劃分,還將COCO的訓練集和驗證集進行了合併,同時清除了任何出現在下游任務驗證/測試集中的圖片。除此之外,作者還通過URL匹配刪去了COCO和Visual Genome中與Flickr30K數據集重複的222張圖片,以確保在Flickr上的零樣本圖像-文本檢索評估是公平的。

  • “Out-of-domain”數據由Conceptual Captions和SBU Captions組成,同樣通過URL匹配刪去了109張圖片。
  • 這樣就最終獲得了560萬個影像-文字對用於訓練集,131,000個影像-文字對用於驗證集。

4. Experiments

UNITER通過在下游任務數據集上對預訓練模型進行微調,在6個視覺加語言(V+L)任務上進行了測試(在九個數據集上實現了新的最先進水平)。

作者報告了兩種模型大小的實驗結果:具有12層的UNITER-base和具有24層的UNITER-large。

4.1 Downstream Tasks

在VQA、VCR和NLVR2任務中,給定一張輸入圖像(或一對圖像)和自然語言問題(或描述),模型基於圖像中的視覺內容預測答案(或判斷描述的正確性)。

對於Visual Entailment,我們在SNLI-VE數據集上進行評估。目標是預測給定的圖像是否在語義上包含輸入的句子。使用三個類別(“包含”、“中立”和“矛盾”)的分類準確性來衡量模型的性能。

對於Image-Text Retrieval,我們考慮了兩個數據集(COCO和Flickr30K),並在兩種情境下評估模型:圖像檢索(IR)和文本檢索(TR)。

4.2 Evaluation on Pre-training Tasks

作者透過對VQA、NLVR2、Flickr30K和RefCOCO+這四個代表性的V+L基準進行消融研究,分析不同預訓練設定的有效性。除了每個基準的標準指標外,我們還使用 Meta-Sum(跨所有基準的分數總和)作為全局指標。

首先,我們建立了兩個基線:表2中的第1行(L1)表示沒有涉及預訓練,L2顯示了使用[9]的預訓練權重初始化的MLM的結果。

儘管僅在文本上進行的MLM預訓練未在預訓練期間吸收任何圖像信息,但我們看到在Meta-Sum上相比於L1有約+30的增益。因此,我們使用L2中的預訓練權重來初始化我們模型進行接下來的實驗。

表2:使用VQA、Flickr30K上的影像文字檢索、NLVR2和RefCOCO+作為基準對預訓練任務和數據集進行評估。

4.3 Results on Downstream Tasks

表3呈現了UNITER在所有下游任務上的結果。作者的基礎模型和大模型都是在“In-domain+Out-of-domain”的數据集上進行預訓練的,採用了最佳的預訓練設定:MLM+ITM+MRC-kl+MRFR+WRA。每個任務的實現細節都在附錄檔案中提供。我們與每個下游任務上的任務特定模型和其他預訓練模型進行了比較。

結果顯示,UNITER-large模型在所有基準上都達到了新的最先進水準。UNITER-base模型在除了VQA以外的所有任務中都明顯優於其他模型。具體而言,我們的UNITER-base模型在VCR的Q→AR上超過SOTA約+2.8%,在NLVR2上超過+2.5%,在SNLI-VE上超過+7%,在影像文字檢索的R@1上超過+4%(在零樣本設定下為+15%),以及在RE理解上超過+2%。

對於需要輸入兩張圖片和一段文字的任務,由於UNITER只在image-sentence pair上作預訓練,如果直接用在這樣的預訓練任務上效果可能不太理想。 為此,可以給每一個圖片和文字提供單獨的embedding,然後在兩張圖片的embedding之間加上雙向注意力層來更好地學習兩張圖片之間的關係

表3:UNITER模型的下游V+L任務的結果,與任務特定的最新技術(SOTA)和以前的預訓練模型進行比較。 ZS:零樣本,IR:圖像檢索和TR:文字檢索

對於VCR,作者提出了一個兩階段的預訓練方法:(i)在標準的預訓練數据集上進行預訓練; 然後(ii)在下游的VCR數据集上進行預訓練。 有趣的是,雖然VLBERT和B2T2觀察到預訓練對VCR的幫助不太大,但作者發現第二階段的預訓練可以顯著提升模型效能,而第一階段的預訓練仍然有所幫助,但效果有限(結果見錶4)。 這表明作者提出的兩階段方法在對新數據進行預訓練時非常有效,而這些數據在預訓練數據集中是未見過的。

表4:VCR的兩階段預訓練實驗。 結果來自基於VCR val分割的UNITER。 階段I和階段II表示第一階段和第二階段的預訓練

--

--

Moris
Computer Vision Note

An AI engineer who loves deep learning technology and is willing to share resources and learn new technologies