Imagen- Photorealistic Text-to-Image Diffusion Models with Deep Language
Paper Explained
在這篇文章中,我們討論了由Google研究所推出的文字到圖像模型“Imagen”。這款由論文Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding所介紹的文字到圖像擴散模型,以其無與倫比的真實感和深度語言理解能力吸引人的目光。在多模式學習的世界中,焦點集中在文字到圖像的合成上,Imagen作為一個重要的進步脫穎而出。該模型結合了大型變壓器語言模型與擴散技術,提供了一種實用的方法,用於從書面描述創建詳細的圖像。
Outline
- Background into Diffusion
- Previous Work
- Imagen
- Architecture
- Drawbench: A Comprehensive Evaluation Benchmark
- Disucssion
- Conclusion
1. Background into Diffusion
擴散模型以初始輸入x⁰為開始,並在每一層t中系統性地引入高斯噪聲,直到達到最終層,表示為xᵀ。這個概念受到非平衡熱力學的啟發,其中狀態在長時間範圍內通過擴散過程向均勻性演變。
擴散模型學習反轉這個過程,試圖從xᵀ生成原始的x⁰(在這種情況下,x⁰是一張圖片)。看上圖可以更好地理解這一點。
擴散模型的去噪過程,通過在每一步保存圖像,與非擴散的文本到圖像生成器相比,建立了與數據和預測之間更緊密和更親密的聯繫。因此,擴散基礎模型達到的顯著結果通常是更具照片寫實性的輸出。
2. Previous Work
過去幾年中,人們一直嘗試將文本轉換成圖像。但在早期,將不同的文本想法真實地融入一張圖片中是一種掙扎。OpenAI推出了DALL-E,這是一種改變規則的遊戲,能夠將各種無關的概念平滑地編織到一個單一的圖像中,逐行進行。不到一年後,OpenAI再次搖撼了事情,轉向了擴散模型GLIDE。根據人類評估員的說法,GLIDE在製作真實圖像和匹配不同場景中的標說方面超越了其他方法,鞏固了擴散模型在將文本轉換成圖片方面的主導地位。
後來,DALL-E 2更進一步。它通過創建基於從給定文本提示的圖像嵌入中得到的編碼的圖像,提高了文本到圖像的遊戲。雖然在這段時間內有其他酷炫的進步,但我們專注於三個為Imagen奠定基礎的主要突破。
3. Imagen
4. Architecture
- 預訓練的文本編碼器:Imagen最大限度地利用預訓練的文本編碼器(BERT, T5, CLIP)進行文本到圖像的合成,與傳統的在圖像文本數據上訓練的模型有所不同。凍結編碼器權重提供了計算優勢,並且發現縮放文本編碼器大小可以顯著提高文本到圖像生成的質量。人類評估在圖像文本對齊和保真度方面都優於CLIP。
- 擴散模型和無分類指導:Imagen採用擴散模型,並介紹了無分類指導,避開了高指導權重的問題。動態阈值主動防止像素飽和,從而產生超級照片寫實效果。該模型達到了一種有效的平衡,改善了圖像文本對齊,同時避免了先前方法相關的質量降解。
- 強大的級聯擴散模型:Imagen的強大架構包括一個基本的64 × 64模型和兩個文本條件的超分辨率擴散模型。噪聲條件增強提高了圖像保真度,而Efficient U-Net變體確保了改進的記憶效率。了解噪聲級別的級聯模型,有助於生成高品質的圖像。
5. Drawbench: A Comprehensive Evaluation Benchmark
為了克服COCO的限制,Imagen引入了DrawBench,提供了多種提示,對文本到圖像模型的評估更具洞察力。DrawBench有11個類別,探查各種能力,包括色彩渲染和複雜的交互,便於直接比較模型。在一對一的比較中,人類評價者一致優先選擇Imagen,強調樣本質量和圖像文本對齊。
5.1 Results and Performance Metrics
Imagen的卓越表現通過在COCO上的最新FID得分7.27來量化。Zero-shot FID-30K比較超越了像GLIDE和DALL-E 2這樣的先前基準。來自DrawBench的評估結果強調了Imagen在與DALL-E 2, GLIDE, Latent Diffusion和CLIP導向的VQ-GAN模型進行兩兩比較時的優越性。這些比較,專注於標說對齊和保真度,展示了Imagen相對於其對手的顯著性能。在DrawBench評估中的這種強烈偏好強調了Imagen在生成高品質和上下文準確的圖像方面的進步,這是由人類評價者所感知的。
相反,來自COCO驗證集的結果,這是文本到圖像模型中的標準基準,並未顯示出不同模型之間的顯著區別。作者簡單地提到了這些結果,暗示在這種設置中模型的性能更可比。值得注意的是,Imagen在COCO數據集上生成照片寫實人物的能力有限,這是一個引人入勝的觀察。然而,這篇論文缺少質性例子,說明Imagen在人物生成中這種限制的程度。這個觀察暗示了處理某些圖像類別的潛在細微差別和挑戰,呼籲未來的研究進一步探索。
6. Disucssion
6.1 Subjectivity in Evaluation Metrics
該論文對Imagen在文本到圖像合成中卓越的寫實性和語言理解進行了斷言,但依賴人類評價者引入了主觀性。尤其是在選擇最具照片寫實性的圖像時,指標的離散性帶來了解釋上的挑戰。有需要連續的評估方法,可能需要納入基於難度的權重以提高可靠性。
6.2 Challenges in Capturing Complexity
隨著領域的進步和模型變得更加令人印象深刻和創新,論文中討論的和使用的當前評估方法就不那麼可靠。所選的指標,主要是忠實度和標說對齊,可能傾向於Imagen的優點,這強調了需要更廣泛和多樣化的評估標準集的需要。
6.3 DrawBench as a Benchmark
雖然DrawBench的推出被證明是對文本到圖像研究領域的貢獻,但該基準包括大約200個文本提示,分為11個類別,與像COCO這樣的大數據集相比存在問題。文本到圖像合成的領域具有動態性,需要不斷適應或擴展基準。DrawBench的構建可能存在偏見,包括在圖像生成中缺少人物,這引發了關於其是否與多樣化的實際場景相符的問題。
7. Conclusion
總結來說,作者們用他們的模型 ‘Imagen’ 在文本到圖像的合成中取得了重大進步。儘管由於倫理原因並未對公眾開放,但該模型結合了像現成的文本編碼器和有效的U-Net架構等酷炫的技術。我很享受閱讀這篇論文,並覺得其貢獻令人興奮。然而,作者可能過於推銷Imagen和DrawBench。在未來的出版物或對Imagen有訪問權的特定研究員進行更詳盡的評估將會很有趣。期待看到這個領域如何發展!