<圖學玩家 第043篇 原創文>
Introduction
LRM (Large Construction Model) 結合NeRF與以Transformer為基礎的大語言模型特性,共有約500 million個參數,以達到5秒內完成Single Image to 3D的生成。
Method
如下圖所示,LRM利用ViT (DINO)作為Image Encoder,接著將Patch-wise的Image Feature Tokens接上Image-to-triplane的Decoder,透過Transfomer中常見的Cross-attension將Image Tokens投射為Triplane Tokens。
DINO and Encoder
LRM利用DINO這類ViT-based的模型,作為Image Encoder,用以提取Image的特徵。論文中有提到,DINO的特徵提取效果有較佳的結構與貼圖 (Texture)訊息。
detailed structural and texture information in DINO is more important in our case since LRM can use it to reconstruct the geometry and color in 3D space
關於DINO與Self-Supervised的介紹,可以參考這篇文章。
Image-to-triplane Decoder
Decoder的部分會將Camera Feature(內外參數等)與Image Feature作為Input,轉出Triplane形式的Representation。關於Triplane Representation可以參考EG3D這篇。
Triplane-NeRF
最後會再訓練一個MLP,進行Triplane to NeRF的轉換。
Conclusion
這系列文章主要想介紹在3D Generation的領域,也開始有跟LLM結合的研究。感覺上大語言模型目前還是泛用性最高的一個架構。
若讀者想更深入閱讀Large Construction Model相關的研究,可以延伸閱讀Instant3D與InstantMesh。
如果喜歡筆者的文章分享,可以幫忙追蹤圖學玩家,你們的閱讀與追蹤是筆者繼續為大家分享的動力~