DALL·E: Zero-Shot Text-to-Image Generation

DALL·E, or DALL-E, Using GPT-3 for Text-to-Image Generation

Published in

Computer Vision Note

7 min readMar 14, 2024

--

DALL·E模型似乎能夠以合理的方式結合不同的概念

DALL·E: Zero-Shot Text-to-Image Generation ,
由 OpenAI於2021 ICLR發表, 超過500次引用

DALL·E是一個基於1200萬參數的GPT-3的模型，它提出了文本到圖像生成的方法，通過自回歸的方式將文本和圖像的標記作為單個數據流來建模。

Outline

DALL·E Overall Two-Stage Procedures
Other Details, such as Datasets & Multi-GPU Training
Experimental Results

1. DALL·E Overall Two-Stage Procedures

原始圖像（上）與離散 VAE（下）重建的比較

目標是訓練一個 Transformer，即 GPT-3，以自回歸的方式 模擬文本和圖像標記 成為 單一數據流。

1.1. Stage 1

離散變分自編碼器（dVAE） 被訓練成將每個256×256 RGB圖像壓縮成32×32的圖像標記網格，每個元素可以假設8192個可能的值。這就減小了 Transformer 的上下文大小，並且不會大幅降低視覺品質，如上所示。

1.2. Stage 2

256個BPE編碼的文本標記 與 32×32=1024的圖像標記串聯起來。
自回歸的Transformer 用於 模擬文本和圖像標記的聯合分佈。

1.3. Maximizing ELB

總體過程可以視為 最大化模型分佈 的 圖像x、 標語y、和 編碼RGB圖像的標記z 的 聯合可能性的證據下限（ELB）。
這個分佈可以使用以下的分解來模擬：

下限如下：

其中 qφ 表示由dVAE編碼器產生的 32×32圖像標記的分佈，給定RGB圖像x，
pθ 表示由dVAE解碼器產生的 RGB圖像的分佈，給定圖像標記，和
pψ 表示由變換器模擬的 文本和圖像標記的聯合分佈。

2. Other Details, such as Datasets & Multi-GPU Training

2.1. Training Datasets

為了將模型擴展到 120億個參數，即 GPT-3，創建了一個與JFT-300M相似規模的數據集，通過 從互聯網收集2.5億個文本-圖像對。
這個數據集不包括MS-COCO，但確實包括 Conceptual Captions 和 YFCC100M的過濾子集。

2.2. Mixed-Precision Training

Transformer 的每個重塊梯度縮放的示意圖

實線表示前向傳播的操作序列，虛線表示反向傳播的操作序列。
每個重塊的入射梯度是按其梯度規模 縮放的，並且在添加到連續重塊的梯度總和之前解縮放。
沿身份路徑的激活和梯度存儲在 32位精度 中。”Filter”操作將激活梯度中的所有Inf和NaN值設置為零。
（詳情請直接閱讀論文。）

2.3. Distributed Optimization

用於分佈式訓練的溝通模式

12億參數模型在16位精度下存儲時占用約24 GB的內存，超過了16 GB NVIDIA V100 GPU的內存。 需要參數分片。 模型中的每個參數數組都在每台機器的八個GPU之間分片。
在機器之間平均梯度（全減少）使得訓練過程中的主要瓶頸。 PowerSGD（Vogels等，2019）用於 通過壓縮梯度來降低這個成本。
（詳情請直接閱讀論文。）

2.4. Sample Generation

對MS-COCO字幕的對比重排程序增加圖像數量的效果

從 Transformer（GPT-3)抽取的樣本被使用預訓練的對比模型（Radford等，2021）重排。給定字幕和候選圖像，對比模型 基於圖像與字幕的匹配程度分配分數。
上圖顯示了 增加樣本數N 的效果，從中 選擇前k個圖像。除非另有說明，否則 N=512。

3. Experimental Results

3.1. Human Evaluation

DALL·E模型（零樣本生成而無需降溫）與先前工作（DF-GAN）在MS-COCO字幕上的人工評價

給定一個字幕，DALL·E模型的樣本在93%的時間內獲得更好匹配字幕的多數票。
它也在90%的時間內獲得更真實的多數票。

3.2. Quantitative Results

MS-COCO和CUB的量化結果

(a) MS-COCO：在對驗證圖像和模型樣本都應用變化半徑的高斯濾波器後，計算FID和IS。
提議的DALL·E模型在MS-COCO上獲得的FID分數與最佳先前方法相差2點內。

DALL·E模型在輕微模糊半徑1的情況下，FID的最佳得分超出約6點。當模糊半徑大於或等於二時，DALL·E也獲得最高的IS。

(b) CUB：但是DALL·E模型在CUB數據集上的表現顯著較差，在DALL·E模型和領先的先前方法之間的FID有近40點的差距。

DALL·E在像CUB這種專業分佈上（即細粒度鳥種圖像分類數據集）不太可能比較有利。

DALL·E模型在CUB數據集上的零樣本樣本

如上所示，展示了一些在CUB數據集上的樣本。
(c) MS-COCO (樣本大小的函數)：當用於與對比模型重新排名的樣本大小增加時，MS-COCO的FID和IS顯示出明顯的改進。

這種趨勢持續到樣本大小為32。

3.3. More Text-to-Image Generation Results

DALL·E模型樣本與MS-COCO字幕上先前方法樣本的比較

每一個DALL·E模型樣本是由對比模型排名的最佳512個之一，如上所示。

3.4. More Results from OpenAI Blog

來自OpenAI Blog的更多結果

後來，DALL·E 2被發明。

References

[2021 ICLR] [DALL·E]
Zero-Shot Text-to-Image Generation

[OpenAI Blog] [DALL·E]
https://openai.com/blog/dall-e/

Review — DALL·E: Zero-Shot Text-to-Image Generation

Generative Adversarial

Image Generation

Moris

Written by Moris

Editor for

Computer Vision Note

An AI engineer who loves deep learning technology and is willing to share resources and learn new technologies

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams