3D生成: 資料蒐集與應用

圖學玩家
Antaeus AR
Published in
Mar 15, 2024

<圖學玩家 第037篇 原創文>

Introduction

本篇文章針對Advances in 3D Generation: A Survey中的Datasets以及Applications章節繼續進行介紹,並且對整個3D生成概貌做個總結。

Datasets

3D Dataset的來源主要分為3D DataMulti-view ImagesSingle-view Images三個部分。

Selected datasets commonly used for 3D generation

Learning from 3D Data

3D Data可以透過RGB-D Sensor以及Scanning/Reconstruction的技術來蒐集,不過目前數據量還是偏小。

ShapeNet則包含了較大量的3D CAD模型Detaset以及Label。而Objaverse與Objaverse-XL更是分別提供了800K與10.2M的3D Data。

Multi-view Images

由於3D Dataset取得相對困難,多視角的圖像也被應用於3D生成的訓練。例如ScanNet就提供了RGB-D Video的資料集,包含了1513場景對應2.5M 個視角。

另外也有CO3D與MVImgNet等多視角圖像Dataset。

Learning from Single-view Images

3D-aware GANs這類模型可以直接透過單一視角的影像進行3D生成的訓練。人臉Dataset FFHQ與動物Dataset AFHQ這類資料集都可以拿來做訓練。

Applications

3D Human Generation

隨著Metaverse與VR/AR的逐步發展,針對人的3D生成也開始迅速發展。就Input Condition來說,目前生成方式主要可以分成Image,從Latent Space隨機採樣Latent Features與Text三類。

生成的3D模型則可以分為有貼圖與無貼圖兩類:

Textureless Generation
Textured Generation

早期的生成法以預測SMPL參數為主,然而此作法無法生成高品質的衣服。CAPE Model即針對衣服的生成問題提出解法。

而Textured 3D Model主要都是採Latent Feature作為Input Condition,例如衍生自GET3DGet3DHuman

3D Face Generation

隨著虛擬世界的發展,個人化身(Avatar)將會受到普遍使用。並且可以透過像EG3D或Implicit 3D morphable models (3DMMs)等技術,對臉部特徵做出客製化的調整。

EG3D

General Scene Generation

物件生成也可以如下分成有貼圖與無貼圖兩大類:

早期因訓練資料的缺乏,無法生成高質量的3D場景。隨著Diffusion Model的發展,像Text2NeRFLucidDreamer這類方法都能有不錯的場景生成效果。

3D Editing

針對場景修飾,可以分為Global Editing與Local Editing兩大類。

Global Editing

主要針對全局的風格轉換與貼圖轉換等應用,

Local Editing

如下圖所示,Local Editing可以針對場景中的某個物件進行旋轉,又或是直接替貓戴上帽子等應用。

Challenges and Conclusion

未來針對3D的Dataset蒐集,以及3D物件的表示法(Representation),都還有很多值得探究的空間。另外針對3D生成的Evaluation也是一個需要探討的議題,畢竟我們需要一個Benchmark來判斷生成方法的優劣。

本文與3D生成: 2024概貌針對目前3D生成的技術做了一定程度的探討。隨著各大科技廠推出頭戴裝置,以及未來輕便AR眼鏡的到來,3D互動體驗將深入人類的生活,而高質感的3D場景與人事物將會讓未來的生活更加豐富有趣。

Ref

  1. Advances in 3D Generation: A Survey
  2. Get3DHuman
  3. CAPE
  4. LucidDreamer
  5. Text2NeRF

--

--