3D生成: LRM Part 3: Large Reconstruction Model

圖學玩家
Jul 4, 2024

--

<圖學玩家 第043篇 原創文>

From LRM

Introduction

LRM (Large Construction Model) 結合NeRF與以Transformer為基礎的大語言模型特性,共有約500 million個參數,以達到5秒內完成Single Image to 3D的生成。

Method

如下圖所示,LRM利用ViT (DINO)作為Image Encoder,接著將Patch-wise的Image Feature Tokens接上Image-to-triplane的Decoder,透過Transfomer中常見的Cross-attension將Image Tokens投射為Triplane Tokens。

DINO and Encoder

LRM利用DINO這類ViT-based的模型,作為Image Encoder,用以提取Image的特徵。論文中有提到,DINO的特徵提取效果有較佳的結構與貼圖 (Texture)訊息。

detailed structural and texture information in DINO is more important in our case since LRM can use it to reconstruct the geometry and color in 3D space

From DINO

關於DINO與Self-Supervised的介紹,可以參考這篇文章

Image-to-triplane Decoder

Decoder的部分會將Camera Feature(內外參數等)與Image Feature作為Input,轉出Triplane形式的Representation。關於Triplane Representation可以參考EG3D這篇。

Triplane-NeRF

最後會再訓練一個MLP,進行Triplane to NeRF的轉換。

Conclusion

這系列文章主要想介紹在3D Generation的領域,也開始有跟LLM結合的研究。感覺上大語言模型目前還是泛用性最高的一個架構。

若讀者想更深入閱讀Large Construction Model相關的研究,可以延伸閱讀Instant3DInstantMesh

如果喜歡筆者的文章分享,可以幫忙追蹤圖學玩家,你們的閱讀與追蹤是筆者繼續為大家分享的動力~

系列文章

  1. 3D生成: LRM Part 1: 自注意力機制
  2. 3D生成: LRM Part 2: Transformer與ViT

Ref

  1. Emerging Properties in Self-Supervised Vision Transformers
  2. Large Reconstruction Model

--

--