<圖學玩家 第036篇 原創文>
Introduction
筆者研讀Advances in 3D Generation: A Survey,針對現今3D生成的技術做概括式的介紹。
筆者與該論文皆認為,現今3D生成技術在Neural表示法(例如NeRF)與Generative Models (例如GAN與Diffusion Models)的推進下,有非常顯著的成效與進步。
Overview of this Survey
本文主要針對上圖的四個區塊介紹
1. 3D Representation
2. 3D Generation Methods
3. Datasets
4. Applications
3D Representations
Neural Scene Representations
現有3D AI-generated的方法,通常會採用Supervised Learning。而其中又分為兩大類,一類是針對3D Reconstruction進行Supervised Learning(上圖左下區),另一類則是先經過Rendering,在Image Domain進行Supervised Learning(上圖右下區)。
由於3D AI-generated的方法必須先定義3D Representation的形式,以下將3D Representation分為三大類依序介紹
1. Explicit Representation
Point Clouds:
Point·E即是以Point Clouds作為3D Representation的3D AI-generated方法。
Meshes:
DIB-R即是以Meshes作為3D Representation的3D AI-generated方法。
2. Implicit Represetation
Neural Implicit Surfaces:
Signed Distance Field (SDF)即是一種Implicit Representation。假設SDF Function = f(x),如此一來S = {x ∈ R 3 | f(x) = 0}即為3D物體的表面。
我們的目的即是去訓練一個Neural Network來表示f(x)。
Implicit surface representations offer numerous advantages, as they eliminate the need to define mesh templates. As a result, they can represent objects with unknown or changing topology in dynamic scenarios.
Neural Radiance Fields:
通常Implicit Representation再搭配Volume Rendering算法,就可以得出Rendered Image,NeRF即是其中一個例子。
3. Hybrid Representation
Explicit Representation的好處是在Training時可以提供Constraint,而Implicit Representation的好處則是可以有較大的彈性,不受限制。
因此有些3D生成技術即是採用Hybrid Representation,藉此得到兩方面的好處。
Tri-plane:
EG3D即是以Tri-plane作為3D Representation的3D AI-generated方法。
Hybrid Surface Representation:
DMTet即是以Hybrid Surface作為3D Representation的3D AI-generated方法。
Generation Methods
這幾年較常見的生成模型主要為以下:
- GAN (Generative Adversarial Network)
- VAE (Variational Autoencoders)
- Autoregressive Model
- Normalizing Flow
- Diffusion Model
從下圖也可以看出,大部分生成模型是採用以上的生成模型:
Optimization-based Generation
上面主要是針對生成模型做分類,而這邊則是就最佳化的方式做分類。
Text-to-3D:
DreamFusion與Point·E皆是Text-to-3D的3D AI-generated方法。
Image-to-3D:
NeRF這種用體素佔據的表示方式,被廣泛得應用在Image-to-3D的生成。其中DreamGaussian不只能生成高質量3D模型,在生成速度上明顯比之前的模型提升不少。
Procedure Generation
這部分主要是只透過Rule-based的方式去產生3D模型,例如Fractals就是一個很好的例子。
Generative Novel View Synthesis
新視角合成(Novel View Synthesis)如下圖所示,即給定Target Pose,針對Source Image與Pose產生新的Target Image。
與前述3D生成方法直接優化3D Representation不同的地方在於,新視角合成主要是透過3D-aware的方法,去制約最佳化過程。Zero-1-to 3就是一個新視角合成的例子。
What’s Next
筆者會在下一篇3D生成: 資料蒐集與應用的部分針對Datasets以及Applications的部分繼續進行介紹,並且對整個3D生成概貌做個總結。