AI Booster - Point·E & Gepetto AI

Informula
IMU Framework Design
Feb 15, 2023

A System for Generating 3D Point Clouds from Complex Prompts

Image Credits: OpenAI

承襲上篇,這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片,期許自己能更了解這世界上正在發生什麼。

Gepetto AI 使用OpenAI Point·E的技術 Demo了一段"文字生成3D模型" (Text-to-3D)的影片,影片中輸入"a dog"、"a bottle"、"a lamp" 和" motorbike"並分別能在20秒內生成三維的模型。

Image Credits: Tree Industries / Gepetto AI

在推出了"文字生成圖片" (Text-to-Image)的Dall·E後,OpenAI在去年底也釋出了上面提到的Point·E,透過輸入關鍵字描述,使用者將能在一到兩分鐘內生成簡單的 3D 物件。

Image Credits: OpenAI

參考Open AI發表的研究,相比之前需要多顆GPU和耗時的 state-of-the-art方法,Point·E只要單個GPU並在一到兩分鐘內生成3D模型,這個新的方法論主要以兩個部分所組成:

  1. 以文字-3D (text, 3D) 資料組合的生成式模型或未上標籤的3D模型方法
  2. 使用預先訓練的文字-圖像(pre-trained text-image)模型對可微分的3D模型進行最佳化的流程

第一種方式效率高卻因受限資料量不足的限制需要以第二種方式來改善多樣性、複雜性不足的問題。

研究人員結合這兩種方法,先以大量的文字-圖像語料庫(corpus of text-image)中理解字與視覺之間的關聯,以處理複雜且多樣的文字提示(prompt),進行採樣生成樣品合成圖,在產出的樣品合成圖基礎上建模生成3D 點雲(point clouds),最後在使用回歸模型將點雲轉換成網格(meshes)。這些步驟可以在數秒鐘內完成產生點雲,也是為什麼研究團隊將此命名為Point·E (generates point clouds efficiently)。

後記: 過去有聽過使用Python輔助Rhinoceros,在寫完這篇介紹的同時,我心中衍生了一個問題: 同樣是AI技術,同樣是OpenAI的工具,以下哪種方式會產生更為精確的3D模型(或更為有效率)?

  1. 使用Point·E,透過文字產生3D模型: Text-to-3D
  2. 使用ChatGPT,告訴ChatGPT產生能在Rhinoceros中的Python 程式碼。並將其用於Rhino建出模型: Text-to-script + script-to-3D

Thank you and Enjoy it:)

--

--