多模態時代來臨：圖文並茂的 AI 世界

Published in

MDBros

Jun 29, 2024

ChatGPT 可能只會算是 AI Era 的序幕，AI 目前在聽、說、讀、寫方面的理解與模仿能力，都有許多突破，而未來人們必定會想辦法用各種方法，把人類能與不能感知的資訊轉化為向量，讓 AI 學習。我們先從一個問題開始：如果 GPT 超出它的記憶範圍，怎麼辦？

現在有 Embedding 的技術，把文字、圖片、影音轉換成數學矩陣，同時也是 GPT 核心資料運算及儲存的方式。GPT 會把文字格式 Embedding 成向量的格式，再進行儲存與運算搜尋。下圖是開源 AI 儲存檔案向量數據庫 — Chroma 所提供，當使用者對資料庫進行 Query 查詢（問問題），問題的文字先被 GPT Embedding 成向量格式，所以當超出 GPT 記憶範圍、或是被指示去向量數據庫查詢時，就可以調用 Chroma 作為外部的資料庫查詢系統。向量資料庫有許多查詢資料、相似度搜尋的方法，不同情境會採取不同策略，完成數據查詢後會把資料回傳到 GPT 原本的記憶範圍內，再由 GPT 產生答案回傳給用戶，有點類似我們目前用的電腦，需要硬碟儲存、搜尋內容，比較不用擔心上一篇文提到「金魚腦」的問題。

Transformer 會把多模態（也就是不同形式的「媒體」檔案，如圖片、文字、聲音）物件轉成向量，進行後續多維度的矩陣運算以達成不同的任務，如圖像辨識、類似商品的圖片搜尋、語意理解分析、文字翻譯、聲音轉換成文字、聲音檔分析等。

不同類型的數據以向量的形式存在一個多維度的數據空間之中，讓我們能輕易找出哪個單字與哪張圖片或哪部影片相關、哪幾張圖片具有相似性（相似度搜尋，有許多方式可以比較不同向量間的相似性，如 Euclidean Distance / Cosine Similarity / Dot Product 等，算兩個點在向量空間裡的距離、長度、角度來判斷它們之間的關係）；Embedding 把多模態檔案轉成向量後，用電腦進行更有效的運算，因此 GPT 需要 GPU 的運算能力來處理不同點之間的關係，來完成巨量的平行數學複雜運算，沒有 GPU 就好像明明確定了問題、需求、應用場景，但沒有資源來處理。

Embedding 是多模態的學習 Multimodal Learning，把各種不同類型的數據建立成向量的形式來做整合與互動，讓文字、語音、視覺領域的資料間在多樣的應用場景帶來翻譯、生成、結合等功能性的應用，以完成諸多任務，如視覺問答、圖文配對、文字轉聲音、圖片變影片。

像是我上傳一張科部 LOGO 給 ChatGPT，它先把圖片轉化為文字、向量理解了以後，再用文字形式回答我詢問的問題，最終依然是文字與文字間的對話。ChatGPT 一次可上傳多張圖片，想判斷多張照片內的藥品、商品有沒有哪個物件出現瑕疵，就可以用這樣的方式來檢查，像是給予一張基準標準品，把工廠製造的許多產品圖片讓 GPT 做圖片差異辨識，也是一種類似的應用。

給 ChatGPT 我的網站截圖，請它幫我寫出 HTML 網站前端的代碼，彈指之間 GPT 就能辨認完我給的圖片，並把 HTML 寫出來，測試後和原圖相當接近，當然按鈕、列表及小圖示是沒辦法列出來的，但還是很令人驚艷。

多模態的 DALL·E 3，是 OpenAI 官方版本文字生圖的模型，在 ChatGPT 用文字敘述我們想要什麼樣的圖，它可以進行多輪對話的生圖，不像一般 AI 生圖，每次產生一張圖片會重新啟動一個 Prompt，DALL·E 3 會記住原本圖像的特徵，再根據使用者需求（譬如我請他把粗框眼鏡改成圓形細框），不斷透過對話內容修改圖片，這是一般 AI 生圖無法完成的多輪式修正，整個流程是連貫的，也可指定圖片的尺寸長寬比。

— -

📒 Compiled by — Sigrid Chen, Rehabilitation Medicine Resident Physician at Taichung Tzu Chi Hospital, Occupational Therapist, Personal Trainer of the American College of Sports Medicine.

多模態時代來臨：圖文並茂的 AI 世界

Written by Sigrid C.