Stable Diffusion背後的技術:高效、高解析又易控制的Latent Diffusion Model

Jia-Yau Shiau
AI Blog TW
Published in
24 min readApr 16, 2023

--

近年,生成式模型 (generative model) 用於圖像生成展現了驚人的成果,最知名的莫過於基於 diffusion model 的 Stable DiffusionMidjourney。雖然目前還無法完整地指出 Midjourney 背後的方法,但透過 Stable Diffusion 團隊的技術論文與 diffusion model 的發展,還是可以大致推論這些 state-of-the-art 方法的概念。

早在 2020年 DDPM 中已經證明 diffusion model 是生成表述能力最好的模型之一,但其效率與解析度仍然是其劣勢。而 Stable Diffusion 透過 perceptual image encoder 與 decoder,除了訓練 diffusion model 的過程可以在較低的解析度完成,在生成高解析度圖像上的能力也更好。另一方面,透過 domain specific expert 的結合, Stable Diffusion 具備了良好的可控制性,可以執行結合其他語意的任務 (如文字生成圖像)。

--

--