多模態時代來臨:圖文並茂的 AI 世界

Sigrid C.
MDBros
Published in
Jun 29, 2024

ChatGPT 可能只會算是 AI Era 的序幕,AI 目前在聽、說、讀、寫方面的理解與模仿能力,都有許多突破,而未來人們必定會想辦法用各種方法,把人類能與不能感知的資訊轉化為向量,讓 AI 學習。我們先從一個問題開始:如果 GPT 超出它的記憶範圍,怎麼辦?

現在有 Embedding 的技術,把文字、圖片、影音轉換成數學矩陣,同時也是 GPT 核心資料運算及儲存的方式。GPT 會把文字格式 Embedding 成向量的格式,再進行儲存與運算搜尋。下圖是開源 AI 儲存檔案向量數據庫 — Chroma 所提供,當使用者對資料庫進行 Query 查詢(問問題),問題的文字先被 GPT Embedding 成向量格式,所以當超出 GPT 記憶範圍、或是被指示去向量數據庫查詢時,就可以調用 Chroma 作為外部的資料庫查詢系統。向量資料庫有許多查詢資料、相似度搜尋的方法,不同情境會採取不同策略,完成數據查詢後會把資料回傳到 GPT 原本的記憶範圍內,再由 GPT 產生答案回傳給用戶,有點類似我們目前用的電腦,需要硬碟儲存、搜尋內容,比較不用擔心上一篇文提到「金魚腦」的問題。

Transformer 會把多模態(也就是不同形式的「媒體」檔案,如圖片、文字、聲音)物件轉成向量,進行後續多維度的矩陣運算以達成不同的任務,如圖像辨識、類似商品的圖片搜尋、語意理解分析、文字翻譯、聲音轉換成文字、聲音檔分析等。

不同類型的數據以向量的形式存在一個多維度的數據空間之中,讓我們能輕易找出哪個單字與哪張圖片或哪部影片相關、哪幾張圖片具有相似性(相似度搜尋,有許多方式可以比較不同向量間的相似性,如 Euclidean Distance / Cosine Similarity / Dot Product 等,算兩個點在向量空間裡的距離、長度、角度來判斷它們之間的關係);Embedding 把多模態檔案轉成向量後,用電腦進行更有效的運算,因此 GPT 需要 GPU 的運算能力來處理不同點之間的關係,來完成巨量的平行數學複雜運算,沒有 GPU 就好像明明確定了問題、需求、應用場景,但沒有資源來處理。

Distance Metrics in Vector Search

Embedding 是多模態的學習 Multimodal Learning,把各種不同類型的數據建立成向量的形式來做整合與互動,讓文字、語音、視覺領域的資料間在多樣的應用場景帶來翻譯、生成、結合等功能性的應用,以完成諸多任務,如視覺問答、圖文配對、文字轉聲音、圖片變影片。

像是我上傳一張科部 LOGO 給 ChatGPT,它先把圖片轉化為文字、向量理解了以後,再用文字形式回答我詢問的問題,最終依然是文字與文字間的對話。ChatGPT 一次可上傳多張圖片,想判斷多張照片內的藥品、商品有沒有哪個物件出現瑕疵,就可以用這樣的方式來檢查,像是給予一張基準標準品,把工廠製造的許多產品圖片讓 GPT 做圖片差異辨識,也是一種類似的應用。

給 ChatGPT 我的網站截圖,請它幫我寫出 HTML 網站前端的代碼,彈指之間 GPT 就能辨認完我給的圖片,並把 HTML 寫出來,測試後和原圖相當接近,當然按鈕、列表及小圖示是沒辦法列出來的,但還是很令人驚艷。

多模態的 DALL·E 3,是 OpenAI 官方版本文字生圖的模型,在 ChatGPT 用文字敘述我們想要什麼樣的圖,它可以進行多輪對話的生圖,不像一般 AI 生圖,每次產生一張圖片會重新啟動一個 Prompt,DALL·E 3 會記住原本圖像的特徵,再根據使用者需求(譬如我請他把粗框眼鏡改成圓形細框),不斷透過對話內容修改圖片,這是一般 AI 生圖無法完成的多輪式修正,整個流程是連貫的,也可指定圖片的尺寸長寬比。

— -

📒 Compiled by — Sigrid Chen, Rehabilitation Medicine Resident Physician at Taichung Tzu Chi Hospital, Occupational Therapist, Personal Trainer of the American College of Sports Medicine.

--

--

Sigrid C.
MDBros
Editor for

Founder of ERRK|Visiting Scholar @ Stanford University|Innovation Enthusiast for a better Homo Sapiens Simulator