Stable Diffusion背後的技術：高效、高解析又易控制的Latent Diffusion Model

Published in

AI Blog TW

24 min readApr 16, 2023

近年，生成式模型 (generative model) 用於圖像生成展現了驚人的成果，最知名的莫過於基於 diffusion model 的 Stable Diffusion 與 Midjourney。雖然目前還無法完整地指出 Midjourney 背後的方法，但透過 Stable Diffusion 團隊的技術論文與 diffusion model 的發展，還是可以大致推論這些 state-of-the-art 方法的概念。

早在 2020年 DDPM 中已經證明 diffusion model 是生成表述能力最好的模型之一，但其效率與解析度仍然是其劣勢。而 Stable Diffusion 透過 perceptual image encoder 與 decoder，除了訓練 diffusion model 的過程可以在較低的解析度完成，在生成高解析度圖像上的能力也更好。另一方面，透過 domain specific expert 的結合， Stable Diffusion 具備了良好的可控制性，可以執行結合其他語意的任務 (如文字生成圖像)。

文章難度：★★★★☆
閱讀建議：本篇文章主要就 Stable Diffusion 開發團隊 Runway 於 2022 年 CVPR 發表的 "High-Resolution Image Synthesis with Latent Diffusion Models" 進行現行 diffusion model 的技術介紹，其中會參雜到許多相關研究，如 DDPM 、 DDIM 、 VQGAN 等方法都會在文章中展開介紹。整體上，文章自 generative model 與 diffusion model 基礎開始，後續才會介紹 Stable Diffusion 的核心 latent diffusion model 。雖然 diffusion model 是相當數學的模型，這篇文章會盡量減少數學描述，但保留相關重要觀念。
推薦背景知識：Machine Learning, Deep Learning, Generative Model, VAE (Variational Auto-Encoder), GAN (Generative Adversarial Network), Normalizing Flow, Maximize Likelihood Estimation (MLE), Density Estimation, Markov Chain, Score Matching, Variational Inference, Vector Quantization, VQGAN.

Stable Diffusion [1] 方法是基於 diffusion model 重要里程碑 DDPM (Denoising Diffusion Probabilistic Models) [2] 改良的 generative model，因此以下先簡單介紹一下 generative model 與 DDPM 的概念。

Stable Diffusion背後的技術：高效、高解析又易控制的Latent Diffusion Model

Written by Jia-Yau Shiau