Imagen- Photorealistic Text-to-Image Diffusion Models with Deep Language

Paper Explained

Moris
Computer Vision Note
Mar 14, 2024

--

在這篇文章中,我們討論了由Google研究所推出的文字到圖像模型“Imagen”。這款由論文Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding所介紹的文字到圖像擴散模型,以其無與倫比的真實感和深度語言理解能力吸引人的目光。在多模式學習的世界中,焦點集中在文字到圖像的合成上,Imagen作為一個重要的進步脫穎而出。該模型結合了大型變壓器語言模型與擴散技術,提供了一種實用的方法,用於從書面描述創建詳細的圖像。

Outline

  1. Background into Diffusion
  2. Previous Work
  3. Imagen
  4. Architecture
  5. Drawbench: A Comprehensive Evaluation Benchmark
  6. Disucssion
  7. Conclusion

1. Background into Diffusion

擴散模型以初始輸入x⁰為開始,並在每一層t中系統性地引入高斯噪聲,直到達到最終層,表示為xᵀ。這個概念受到非平衡熱力學的啟發,其中狀態在長時間範圍內通過擴散過程向均勻性演變。

擴散模型學習反轉這個過程,試圖從xᵀ生成原始的x⁰(在這種情況下,x⁰是一張圖片)。看上圖可以更好地理解這一點。

擴散模型的去噪過程,通過在每一步保存圖像,與非擴散的文本到圖像生成器相比,建立了與數據和預測之間更緊密和更親密的聯繫。因此,擴散基礎模型達到的顯著結果通常是更具照片寫實性的輸出。

2. Previous Work

過去幾年中,人們一直嘗試將文本轉換成圖像。但在早期,將不同的文本想法真實地融入一張圖片中是一種掙扎。OpenAI推出了DALL-E,這是一種改變規則的遊戲,能夠將各種無關的概念平滑地編織到一個單一的圖像中,逐行進行。不到一年後,OpenAI再次搖撼了事情,轉向了擴散模型GLIDE。根據人類評估員的說法,GLIDE在製作真實圖像和匹配不同場景中的標說方面超越了其他方法,鞏固了擴散模型在將文本轉換成圖片方面的主導地位。

後來,DALL-E 2更進一步。它通過創建基於從給定文本提示的圖像嵌入中得到的編碼的圖像,提高了文本到圖像的遊戲。雖然在這段時間內有其他酷炫的進步,但我們專注於三個為Imagen奠定基礎的主要突破。

3. Imagen

4. Architecture

  1. 預訓練的文本編碼器:Imagen最大限度地利用預訓練的文本編碼器(BERT, T5, CLIP)進行文本到圖像的合成,與傳統的在圖像文本數據上訓練的模型有所不同。凍結編碼器權重提供了計算優勢,並且發現縮放文本編碼器大小可以顯著提高文本到圖像生成的質量。人類評估在圖像文本對齊和保真度方面都優於CLIP。
  2. 擴散模型和無分類指導:Imagen採用擴散模型,並介紹了無分類指導,避開了高指導權重的問題。動態阈值主動防止像素飽和,從而產生超級照片寫實效果。該模型達到了一種有效的平衡,改善了圖像文本對齊,同時避免了先前方法相關的質量降解。
  3. 強大的級聯擴散模型:Imagen的強大架構包括一個基本的64 × 64模型和兩個文本條件的超分辨率擴散模型。噪聲條件增強提高了圖像保真度,而Efficient U-Net變體確保了改進的記憶效率。了解噪聲級別的級聯模型,有助於生成高品質的圖像。

5. Drawbench: A Comprehensive Evaluation Benchmark

為了克服COCO的限制,Imagen引入了DrawBench,提供了多種提示,對文本到圖像模型的評估更具洞察力。DrawBench有11個類別,探查各種能力,包括色彩渲染和複雜的交互,便於直接比較模型。在一對一的比較中,人類評價者一致優先選擇Imagen,強調樣本質量和圖像文本對齊。

5.1 Results and Performance Metrics

Imagen的卓越表現通過在COCO上的最新FID得分7.27來量化。Zero-shot FID-30K比較超越了像GLIDE和DALL-E 2這樣的先前基準。來自DrawBench的評估結果強調了Imagen在與DALL-E 2, GLIDE, Latent Diffusion和CLIP導向的VQ-GAN模型進行兩兩比較時的優越性。這些比較,專注於標說對齊和保真度,展示了Imagen相對於其對手的顯著性能。在DrawBench評估中的這種強烈偏好強調了Imagen在生成高品質和上下文準確的圖像方面的進步,這是由人類評價者所感知的。

相反,來自COCO驗證集的結果,這是文本到圖像模型中的標準基準,並未顯示出不同模型之間的顯著區別。作者簡單地提到了這些結果,暗示在這種設置中模型的性能更可比。值得注意的是,Imagen在COCO數據集上生成照片寫實人物的能力有限,這是一個引人入勝的觀察。然而,這篇論文缺少質性例子,說明Imagen在人物生成中這種限制的程度。這個觀察暗示了處理某些圖像類別的潛在細微差別和挑戰,呼籲未來的研究進一步探索。

6. Disucssion

6.1 Subjectivity in Evaluation Metrics

該論文對Imagen在文本到圖像合成中卓越的寫實性和語言理解進行了斷言,但依賴人類評價者引入了主觀性。尤其是在選擇最具照片寫實性的圖像時,指標的離散性帶來了解釋上的挑戰。有需要連續的評估方法,可能需要納入基於難度的權重以提高可靠性。

6.2 Challenges in Capturing Complexity

隨著領域的進步和模型變得更加令人印象深刻和創新,論文中討論的和使用的當前評估方法就不那麼可靠。所選的指標,主要是忠實度和標說對齊,可能傾向於Imagen的優點,這強調了需要更廣泛和多樣化的評估標準集的需要。

6.3 DrawBench as a Benchmark

雖然DrawBench的推出被證明是對文本到圖像研究領域的貢獻,但該基準包括大約200個文本提示,分為11個類別,與像COCO這樣的大數據集相比存在問題。文本到圖像合成的領域具有動態性,需要不斷適應或擴展基準。DrawBench的構建可能存在偏見,包括在圖像生成中缺少人物,這引發了關於其是否與多樣化的實際場景相符的問題。

7. Conclusion

總結來說,作者們用他們的模型 ‘Imagen’ 在文本到圖像的合成中取得了重大進步。儘管由於倫理原因並未對公眾開放,但該模型結合了像現成的文本編碼器和有效的U-Net架構等酷炫的技術。我很享受閱讀這篇論文,並覺得其貢獻令人興奮。然而,作者可能過於推銷Imagen和DrawBench。在未來的出版物或對Imagen有訪問權的特定研究員進行更詳盡的評估將會很有趣。期待看到這個領域如何發展!

--

--

Computer Vision Note
Computer Vision Note

Published in Computer Vision Note

This Publication include Image Classification, Semantic Segmentation, Instance Segmentation, Object Detection, Face Recognition and Traditional Image Processing method

Moris
Moris

Written by Moris

An AI engineer who loves deep learning technology and is willing to share resources and learn new technologies