3D生成: 資料蒐集與應用
<圖學玩家 第037篇 原創文>
Introduction
本篇文章針對Advances in 3D Generation: A Survey中的Datasets以及Applications章節繼續進行介紹,並且對整個3D生成概貌做個總結。
Datasets
3D Dataset的來源主要分為3D Data,Multi-view Images與Single-view Images三個部分。
Learning from 3D Data
3D Data可以透過RGB-D Sensor以及Scanning/Reconstruction的技術來蒐集,不過目前數據量還是偏小。
ShapeNet則包含了較大量的3D CAD模型Detaset以及Label。而Objaverse與Objaverse-XL更是分別提供了800K與10.2M的3D Data。
Multi-view Images
由於3D Dataset取得相對困難,多視角的圖像也被應用於3D生成的訓練。例如ScanNet就提供了RGB-D Video的資料集,包含了1513場景對應2.5M 個視角。
另外也有CO3D與MVImgNet等多視角圖像Dataset。
Learning from Single-view Images
3D-aware GANs這類模型可以直接透過單一視角的影像進行3D生成的訓練。人臉Dataset FFHQ與動物Dataset AFHQ這類資料集都可以拿來做訓練。
Applications
3D Human Generation
隨著Metaverse與VR/AR的逐步發展,針對人的3D生成也開始迅速發展。就Input Condition來說,目前生成方式主要可以分成Image,從Latent Space隨機採樣Latent Features與Text三類。
生成的3D模型則可以分為有貼圖與無貼圖兩類:
早期的生成法以預測SMPL參數為主,然而此作法無法生成高品質的衣服。CAPE Model即針對衣服的生成問題提出解法。
而Textured 3D Model主要都是採Latent Feature作為Input Condition,例如衍生自GET3D的Get3DHuman。
3D Face Generation
隨著虛擬世界的發展,個人化身(Avatar)將會受到普遍使用。並且可以透過像EG3D或Implicit 3D morphable models (3DMMs)等技術,對臉部特徵做出客製化的調整。
General Scene Generation
物件生成也可以如下分成有貼圖與無貼圖兩大類:
早期因訓練資料的缺乏,無法生成高質量的3D場景。隨著Diffusion Model的發展,像Text2NeRF與LucidDreamer這類方法都能有不錯的場景生成效果。
3D Editing
針對場景修飾,可以分為Global Editing與Local Editing兩大類。
Global Editing
主要針對全局的風格轉換與貼圖轉換等應用,
Local Editing
如下圖所示,Local Editing可以針對場景中的某個物件進行旋轉,又或是直接替貓戴上帽子等應用。
Challenges and Conclusion
未來針對3D的Dataset蒐集,以及3D物件的表示法(Representation),都還有很多值得探究的空間。另外針對3D生成的Evaluation也是一個需要探討的議題,畢竟我們需要一個Benchmark來判斷生成方法的優劣。
本文與3D生成: 2024概貌針對目前3D生成的技術做了一定程度的探討。隨著各大科技廠推出頭戴裝置,以及未來輕便AR眼鏡的到來,3D互動體驗將深入人類的生活,而高質感的3D場景與人事物將會讓未來的生活更加豐富有趣。