從 Sora 的技術背景解析當代 Video Generation 的方法與難題

Jia-Yau Shiau
AI Blog TW
Published in
25 min readFeb 25, 2024

--

近年來,人工智慧與機器學習領域在圖片生成技術方面發展快速。從2010年代初期依賴於生成對抗網絡 (GAN-based) 方法的有趣嘗試,到近年來基於擴散模型 (diffusion models) 的 DALL-EStable Diffusion 的崛起,這些創新不僅在學術界引起轟動,也逐步影響到了大眾生活。然而,相比之下,影片生成技術的發展似乎還在醞釀中,尚未廣泛應用於日常生活中。

影片生成一直被認為是一項複雜的高維度任務,不僅要在圖像生成的基礎上處理時間連續性的問題,還面臨著高維數據處理的挑戰。長期以來,產生既高品質又有一定長度的影片對技術是一大考驗。在 2024 年 2 月 OpenAI 推出了 Sora 模型,不僅能生成長達一分鐘的視頻,在視覺一致性和對文字指令的遵循性上也有良好的水平。Sora 的出現代表一定程度克服了處理高維數據的挑戰,標誌著影片生成即將進入大眾使用的階段。雖然 Sora 的成就是建立在眾多先驅技術基礎之上的,但它在當下時刻對於未來影片生成領域的發展輪廓提供了一個重要的視角,非常值得作為一個切入點來探討。

--

--