從 Sora 的技術背景解析當代 Video Generation 的方法與難題

Published in

AI Blog TW

25 min readFeb 25, 2024

近年來，人工智慧與機器學習領域在圖片生成技術方面發展快速。從2010年代初期依賴於生成對抗網絡 (GAN-based) 方法的有趣嘗試，到近年來基於擴散模型 (diffusion models) 的 DALL-E 和 Stable Diffusion 的崛起，這些創新不僅在學術界引起轟動，也逐步影響到了大眾生活。然而，相比之下，影片生成技術的發展似乎還在醞釀中，尚未廣泛應用於日常生活中。

影片生成一直被認為是一項複雜的高維度任務，不僅要在圖像生成的基礎上處理時間連續性的問題，還面臨著高維數據處理的挑戰。長期以來，產生既高品質又有一定長度的影片對技術是一大考驗。在 2024 年 2 月 OpenAI 推出了 Sora 模型，不僅能生成長達一分鐘的視頻，在視覺一致性和對文字指令的遵循性上也有良好的水平。Sora 的出現代表一定程度克服了處理高維數據的挑戰，標誌著影片生成即將進入大眾使用的階段。雖然 Sora 的成就是建立在眾多先驅技術基礎之上的，但它在當下時刻對於未來影片生成領域的發展輪廓提供了一個重要的視角，非常值得作為一個切入點來探討。

文章難度：★★★★☆
閱讀建議：文章從 Sora 的推出作為動機，介紹了生成圖片與生成影片在技術上的差異和面臨的挑戰。接著探討了 Sora 的技術架構，包括其使用 Transformer 架構的 Latent Diffusion Model 、 spacetime latent patches 的設計，以及如何通過 NaViT 等技術實現高效的大規模訓練。此外，也介紹了如何增強影片與語言間的理解來改進影片生成技術最後，對於 Sora 一些未公開的細節做合理推論，包含實現長影片生成的潛在方法、物理世界的理解及其對未來影片生成領域的影響等。
推薦背景知識: Generative Model, VAE (Variational Auto-Encoder), GAN (Generative Adversarial Network), Transformer, Vision Transformer (ViT), CLIP.

Sora: Creating Video from Text

Sora [1] 是 OpenAI 推出用於 video generation from text 的 ML 模型，能夠根據文本指令創造出真實又或充滿想象的場景視頻。在過往，大部分的 video generation 無法生成較長的影片，但 Sora 目前可以生成長達一分鐘的視頻，同時保持視覺一致性和對 prompt 的遵循性。

從 Sora 的技術背景解析當代 Video Generation 的方法與難題

Sora: Creating Video from Text

Written by Jia-Yau Shiau