Stable Diffusion背後的技術:高效、高解析又易控制的Latent Diffusion Model

Jia-Yau Shiau
AI Blog TW
Published in
24 min readApr 16, 2023

--

近年,生成式模型 (generative model) 用於圖像生成展現了驚人的成果,最知名的莫過於基於 diffusion model 的 Stable DiffusionMidjourney。雖然目前還無法完整地指出 Midjourney 背後的方法,但透過 Stable Diffusion 團隊的技術論文與 diffusion model 的發展,還是可以大致推論這些 state-of-the-art 方法的概念。

早在 2020年 DDPM 中已經證明 diffusion model 是生成表述能力最好的模型之一,但其效率與解析度仍然是其劣勢。而 Stable Diffusion 透過 perceptual image encoder 與 decoder,除了訓練 diffusion model 的過程可以在較低的解析度完成,在生成高解析度圖像上的能力也更好。另一方面,透過 domain specific expert 的結合, Stable Diffusion 具備了良好的可控制性,可以執行結合其他語意的任務 (如文字生成圖像)。

Cover made with Canva! (image source)

文章難度:★★★★☆
閱讀建議: 本篇文章主要就 Stable Diffusion 開發團隊 Runway 於 2022 年 CVPR 發表的 "High-Resolution Image Synthesis with Latent Diffusion Models" 進行現行 diffusion model 的技術介紹,其中會參雜到許多相關研究,DDPM DDIMVQGAN 等方法都會在文章中展開介紹。整體上,文章自 generative model 與 diffusion model 基礎開始,後續才會介紹 Stable Diffusion 的核心 latent diffusion model 。雖然 diffusion model 是相當數學的模型,這篇文章會盡量減少數學描述,但保留相關重要觀念。
推薦背景知識:Machine Learning, Deep Learning, Generative Model, VAE (Variational Auto-Encoder), GAN (Generative Adversarial Network), Normalizing Flow, Maximize Likelihood Estimation (MLE), Density Estimation, Markov Chain, Score Matching, Variational Inference, Vector Quantization, VQGAN.

Stable Diffusion [1] 方法是基於 diffusion model 重要里程碑 DDPM (Denoising Diffusion Probabilistic Models) [2] 改良的 generative model,因此以下先簡單介紹一下 generative model 與 DDPM 的概念。

--

--