DALL·E: Zero-Shot Text-to-Image Generation

DALL·E, or DALL-E, Using GPT-3 for Text-to-Image Generation

Moris
Computer Vision Note
7 min readMar 14, 2024

--

DALL·E模型似乎能夠以合理的方式結合不同的概念

DALL·E: Zero-Shot Text-to-Image Generation ,
由 OpenAI於2021 ICLR發表, 超過500次引用

  • DALL·E是一個基於1200萬參數的GPT-3的模型,它提出了文本到圖像生成的方法,通過自回歸的方式將文本和圖像的標記作為單個數據流來建模。

Outline

  1. DALL·E Overall Two-Stage Procedures
  2. Other Details, such as Datasets & Multi-GPU Training
  3. Experimental Results

1. DALL·E Overall Two-Stage Procedures

原始圖像(上)與離散 VAE(下)重建的比較
  • 目標 是訓練一個 Transformer,即 GPT-3,以自回歸的方式 模擬文本和圖像標記 成為 單一數據流

1.1. Stage 1

  • 離散變分自編碼器(dVAE) 被訓練成將每個256×256 RGB圖像壓縮成32×32的圖像標記網格,每個元素可以假設8192個可能的值。這就減小了 Transformer 的上下文大小,並且不會大幅降低視覺品質,如上所示。

1.2. Stage 2

  • 256個BPE編碼的文本標記32×32=1024的圖像標記串聯起來
  • 自回歸的Transformer 用於 模擬文本和圖像標記的聯合分佈

1.3. Maximizing ELB

  • 總體過程可以視為 最大化模型分佈圖像x標語y、和 編碼RGB圖像的標記z聯合可能性的證據下限(ELB)
  • 這個分佈可以使用以下的分解來模擬:
  • 下限如下:
  • 其中 表示由dVAE編碼器產生的 32×32圖像標記的分佈,給定RGB圖像x,
  • 表示由dVAE解碼器產生的 RGB圖像的分佈,給定圖像標記,和
  • 表示由變換器模擬的 文本和圖像標記的聯合分佈

2. Other Details, such as Datasets & Multi-GPU Training

2.1. Training Datasets

  • 為了將模型擴展到 120億個參數,即 GPT-3,創建了一個與JFT-300M相似規模的數據集,通過 從互聯網收集2.5億個文本-圖像對
  • 這個數據集不包括MS-COCO,但確實 包括 Conceptual CaptionsYFCC100M的過濾子集

2.2. Mixed-Precision Training

Transformer 的每個重塊梯度縮放的示意圖
  • 實線表示前向傳播的操作序列,虛線表示反向傳播的操作序列。
  • 每個重塊的入射梯度是按其梯度規模 縮放的,並且在添加到連續重塊的梯度總和之前解縮放
  • 沿身份路徑的激活和梯度存儲在 32位精度 中。”Filter”操作將激活梯度中的所有Inf和NaN值設置為零。
  • (詳情請直接閱讀論文。)

2.3. Distributed Optimization

用於分佈式訓練的溝通模式
  • 12億參數模型在16位精度下存儲時占用約24 GB的內存,超過了16 GB NVIDIA V100 GPU的內存。 需要參數分片。 模型中的每個參數數組都在每台機器的八個GPU之間分片
  • 在機器之間平均梯度(全減少)使得訓練過程中的主要瓶頸PowerSGD(Vogels等,2019)用於 通過壓縮梯度來降低這個成本
  • (詳情請直接閱讀論文。)

2.4. Sample Generation

對MS-COCO字幕的對比重排程序增加圖像數量的效果
  • TransformerGPT-3)抽取的樣本被使用預訓練的對比模型(Radford等,2021)重排。給定字幕和候選圖像,對比模型 基於圖像與字幕的匹配程度分配分數
  • 上圖顯示了 增加樣本數N 的效果,從中 選擇前k個圖像。除非另有說明,否則 N=512

3. Experimental Results

3.1. Human Evaluation

DALL·E模型(零樣本生成而無需降溫)與先前工作(DF-GAN)在MS-COCO字幕上的人工評價

  • 給定一個字幕,DALL·E模型的樣本在93%的時間內獲得更好匹配字幕的多數票。
  • 它也在90%的時間內獲得更真實的多數票。

3.2. Quantitative Results

MS-COCO和CUB的量化結果
  • (a) MS-COCO:在對驗證圖像和模型樣本都應用變化半徑的高斯濾波器後,計算FID和IS。
  • 提議的DALL·E模型在MS-COCO上獲得的FID分數最佳先前方法相差2點內

DALL·E模型在輕微模糊半徑1的情況下,FID的最佳得分超出約6點。當模糊半徑大於或等於二時,DALL·E也獲得最高的IS。

  • (b) CUB:但是DALL·E模型在CUB數據集上的表現顯著較差,在DALL·E模型和領先的先前方法之間的FID有近40點的差距。

DALL·E在像CUB這種專業分佈上(即細粒度鳥種圖像分類數據集)不太可能比較有利。

DALL·E模型在CUB數據集上的零樣本樣本
  • 如上所示,展示了一些在CUB數據集上的樣本。
  • (c) MS-COCO (樣本大小的函數):當用於與對比模型重新排名的樣本大小增加時,MS-COCO的FID和IS顯示出明顯的改進。

這種趨勢持續到樣本大小為32。

3.3. More Text-to-Image Generation Results

DALL·E模型樣本與MS-COCO字幕上先前方法樣本的比較
  • 每一個DALL·E模型樣本是由對比模型排名的最佳512個之一,如上所示。

3.4. More Results from OpenAI Blog

來自OpenAI Blog的更多結果
後來,DALL·E 2被發明。

--

--

Moris
Computer Vision Note

An AI engineer who loves deep learning technology and is willing to share resources and learn new technologies