DALL·E: Zero-Shot Text-to-Image Generation
DALL·E, or DALL-E, Using GPT-3 for Text-to-Image Generation
Published in
7 min readMar 14, 2024
DALL·E: Zero-Shot Text-to-Image Generation ,
由 OpenAI於2021 ICLR發表, 超過500次引用
- DALL·E是一個基於1200萬參數的GPT-3的模型,它提出了文本到圖像生成的方法,通過自回歸的方式將文本和圖像的標記作為單個數據流來建模。
Outline
- DALL·E Overall Two-Stage Procedures
- Other Details, such as Datasets & Multi-GPU Training
- Experimental Results
1. DALL·E Overall Two-Stage Procedures
- 目標 是訓練一個 Transformer,即 GPT-3,以自回歸的方式 模擬文本和圖像標記 成為 單一數據流。
1.1. Stage 1
- 離散變分自編碼器(dVAE) 被訓練成將每個256×256 RGB圖像壓縮成32×32的圖像標記網格,每個元素可以假設8192個可能的值。這就減小了 Transformer 的上下文大小,並且不會大幅降低視覺品質,如上所示。
1.2. Stage 2
- 256個BPE編碼的文本標記 與 32×32=1024的圖像標記串聯起來。
- 自回歸的Transformer 用於 模擬文本和圖像標記的聯合分佈。
1.3. Maximizing ELB
- 總體過程可以視為 最大化模型分佈 的 圖像x、 標語y、和 編碼RGB圖像的標記z 的 聯合可能性的證據下限(ELB)。
- 這個分佈可以使用以下的分解來模擬:
- 下限如下:
- 其中 qφ 表示由dVAE編碼器產生的 32×32圖像標記的分佈,給定RGB圖像x,
- pθ 表示由dVAE解碼器產生的 RGB圖像的分佈,給定圖像標記,和
- pψ 表示由變換器模擬的 文本和圖像標記的聯合分佈。
2. Other Details, such as Datasets & Multi-GPU Training
2.1. Training Datasets
- 為了將模型擴展到 120億個參數,即 GPT-3,創建了一個與JFT-300M相似規模的數據集,通過 從互聯網收集2.5億個文本-圖像對。
- 這個數據集不包括MS-COCO,但確實 包括 Conceptual Captions 和 YFCC100M的過濾子集。
2.2. Mixed-Precision Training
- 實線表示前向傳播的操作序列,虛線表示反向傳播的操作序列。
- 每個重塊的入射梯度是按其梯度規模 縮放的,並且在添加到連續重塊的梯度總和之前解縮放。
- 沿身份路徑的激活和梯度存儲在 32位精度 中。”Filter”操作將激活梯度中的所有Inf和NaN值設置為零。
- (詳情請直接閱讀論文。)
2.3. Distributed Optimization
- 12億參數模型在16位精度下存儲時占用約24 GB的內存,超過了16 GB NVIDIA V100 GPU的內存。 需要參數分片。 模型中的每個參數數組都在每台機器的八個GPU之間分片。
- 在機器之間平均梯度(全減少)使得訓練過程中的主要瓶頸。 PowerSGD(Vogels等,2019)用於 通過壓縮梯度來降低這個成本。
- (詳情請直接閱讀論文。)
2.4. Sample Generation
- 從 Transformer(GPT-3)抽取的樣本被使用預訓練的對比模型(Radford等,2021)重排。給定字幕和候選圖像,對比模型 基於圖像與字幕的匹配程度分配分數。
- 上圖顯示了 增加樣本數N 的效果,從中 選擇前k個圖像。除非另有說明,否則 N=512。
3. Experimental Results
3.1. Human Evaluation
DALL·E模型(零樣本生成而無需降溫)與先前工作(DF-GAN)在MS-COCO字幕上的人工評價
- 給定一個字幕,DALL·E模型的樣本在93%的時間內獲得更好匹配字幕的多數票。
- 它也在90%的時間內獲得更真實的多數票。
3.2. Quantitative Results
- (a) MS-COCO:在對驗證圖像和模型樣本都應用變化半徑的高斯濾波器後,計算FID和IS。
- 提議的DALL·E模型在MS-COCO上獲得的FID分數與最佳先前方法相差2點內。
DALL·E模型在輕微模糊半徑1的情況下,FID的最佳得分超出約6點。當模糊半徑大於或等於二時,DALL·E也獲得最高的IS。
- (b) CUB:但是DALL·E模型在CUB數據集上的表現顯著較差,在DALL·E模型和領先的先前方法之間的FID有近40點的差距。
DALL·E在像CUB這種專業分佈上(即細粒度鳥種圖像分類數據集)不太可能比較有利。
- 如上所示,展示了一些在CUB數據集上的樣本。
- (c) MS-COCO (樣本大小的函數):當用於與對比模型重新排名的樣本大小增加時,MS-COCO的FID和IS顯示出明顯的改進。
這種趨勢持續到樣本大小為32。
3.3. More Text-to-Image Generation Results
- 每一個DALL·E模型樣本是由對比模型排名的最佳512個之一,如上所示。
3.4. More Results from OpenAI Blog
References
[2021 ICLR] [DALL·E]
Zero-Shot Text-to-Image Generation
[OpenAI Blog] [DALL·E]
https://openai.com/blog/dall-e/