如何利用 Transformer 模型實現自然語言處理的突破

Sigrid C.
MDBros
Published in
8 min readJun 9, 2024

GPT(Generative Pre-Trained Transformer)如何學習語言?

AI 已經是一個研究數十年的領域,機器學習是其開端。數學、物理學、電腦科學不斷探討人工智慧,從視覺、語言到機器人等多方面理解 AI,通往通用人工智能(Artificial General Intelligence, AGI)。圖像識別、人臉辨識(Face ID)、打字自動完成(Auto Complete)等應用,早已在我們的生活中隨處可見,不過這些都是「專門為特定任務」打造的 AI。

2017 年 6 月,Google Brain 團隊發現集中運算資源用 Transformer Deep Learning Model 架構的「Attention」機制,幫助 Neural Network 理解文字之間的關係,效果很好。隨後發表的 “Attention is All You Need” Transformer 模型論文,首次開啟 NLP(自然語言處理)時代的突破,理解人類的語言、自然語言訊息的處理,讓 LLM(大型語言模型)開啟 AGI 的時代。

GPT(生成式預訓練模型)是深度學習 AI,壓縮全世界的知識、產生湧現(Emergence)效果,不斷預測下一個單詞的 AI 模型。它本身沒有自我思考或情感的能力,比較像是一個全球知識、數十億人類文字/影像/多媒體檔案的壓縮庫。GPT 模型使用 Transformer Neural Network 來處理這些數據,結合 Supervised 與 Non-Supervised Learning。OpenAI 當初花費數千萬美金聘請人來標注網路上的圖片、影片、音樂,進行 Supervised Learning。目前,人類標注的回饋訓練是最有效的。GPT 的主要工作是在這些基礎上,去預測下一個最有可能的 Token(單詞)。

➊ 知識壓縮:如何把全世界的知識壓縮到 GPT 裡

學習的本質,可以理解為「對有效訊息進行無損壓縮(Data Compression)的過程」,壓縮率越大,學習效果越好。基於 GPT 的 LLM,就是一個收集了全世界所能收集到知識、性能卓越的數據壓縮器。OpenAI 首席科學家 Ilya Sutskever 說:「如果你能高效壓縮訊息,你一定已經得到知識 If you can efficiently compress information, you must have knowledge,不然你沒辦法壓縮訊息 Better compression reflects a deeper understanding of the data structure。所以,你把訊息高效壓縮的話,你總得有些知識 You got to have some knowledge。」

OpenAI 核心研發員 Jack Rae 說過,使用 LLM 進行無損壓縮對最小描述進行計算,希望大模型對任務的理解能力可以被數學公式量化。基礎模型的目標,是 Real-Time 實時對有效訊息最大限度的無損壓縮,把 GPT 複雜的原理,壓縮到一個數學公式就可以代表,如同牛頓定律 F = Ma 來描述物理世界;以更小的有效方法敘述長度,代表對任務有更好的理解,當我們對有效方法無損壓縮到最小長度時,就等於是對該任務的最優理解。語言模型的本質,是不斷預測下一個單詞的概率分佈、完成生成任務。

Jack Rae 用一張圖表示不同 LLM 壓縮時損失的資訊量。可以看到,LLaMA 模型的參數越大,壓縮後的資訊損失越少。如紅線 650 億參數的 Training Loss 比藍線 70 億參數快少一半,數據損失量越小,代表壓縮後的知識越多、越精準。像是最好的學習辦法就是教別人,如果還做不到教別人,代表還不夠理解。GPT 如果沒有理解、壓縮到極致,就無法生成下一個單詞。

➋ LLM 的湧現能力

我們小時候被教導要背誦很多詞彙、閱讀許多文章跟著造句,某天自己就突然能寫出一篇文章,但要重複或解釋這個過程、預測小朋友什麼時候突然會寫作文,是很抽象且困難的。同樣地,GPT 壓縮全世界的知識、讀全世界所有的文章,某個瞬間就融會貫通了。即使是 OpenAI Team 也很難描述他們對湧現的理解,只知道 Model 的數據到達超過 100 億等級的數量時,就會慢慢展開模型的湧現能力。

在不同的學科、領域,不同模型展開湧現的方式與時間點都不一樣。訓練數據在低於一定值的時候,各 LLM 的表現都差不多,但當模型訓練到一定數量時,預測準確性就會呈現指數性的飆升。

Andrew Ng 在 2023 年於 Stanford 的演講曾說過,早期 10–20 年前 AI 之所以沒有太大突破或看不到未來性,是因為早期硬體與數據量只有 Small Models,無論怎麼餵資料,其性能也不會隨著數據量增加而顯著提升。這幾年他在 Google Brain 的首要任務,是往 LLM 塞很多數據做訓練,發現給大語言模型越多資料,模型表現就會有指數性的上升。

擁有湧現能力後,AI 展示出的效果

⓵ Instruction / In-context Learning:學會連續多輪的對話、可以理解上下文,看到範本可以順利學習、甚至舉一反三。沒被訓練過的任務也可以學習,像學好英文後,學法文、德文等其他語言的速度也變得很快。

⓶ Step-by-step Reasoning(Chain-of-Thought):對於需要多個步驟才能解決的問題,展現了逐步推理解決問題的能力。開始可以一步一步地思考,把大任務拆解成小任務完成。

⓷ Calibration:以前 GPT 就算錯了,也會覺得自己是對的。但有湧現能力後,GPT 知道自己不知道,會發現自己不知道哪些東西,並承認自己算錯了。

➌ Generative 生成 — 預測下一個單詞

湧現能力幫助 GPT 理解文字、段落、文章的上下文內容,並預測下一個可能會出現的單詞。這就是 AI 生成模型如 ChatGPT 和 Midjourney 玩的「下一個單詞/圖概率遊戲」。GPT 會不斷檢視目前上下文的窗口,預測下一個可能出現的詞,完成該句子,並不斷重複這個過程,直到完成更長的文章。本質上只是反覆地詢問:「根據到目前為止的前後文內容,下一個單詞應該是什麼?」但它只是「預測」,而不是「確認」的答案。每個出現的單字都是 GPT 猜測會有多少概率出現該詞,所以即使問 GPT 同樣的問題,它也會給不同的答案,因為本質上就是數學概率,猜測下個單詞可能是什麼,再給出它認為最適合的答案。

簡言之,GPT 是由 Transformer 壓縮全世界的資訊,產生出湧現效果,不斷預測下一個單詞的 AI 模型。它需要的算力和傳統電腦不太一樣,這五十年來傳統電腦是二進位 0–1 運算,CPU 是核心的算力基礎來源。GPT 的 Deep Learning 是基於矩陣的型態,需要在大量矩陣裡做平行運算。所有預測是多維度矩陣方程式的運算,Nvidia 早在 10 幾年前佈局 CUDA(Compute Unified Devices Architecture,統一計算架構)深度學習演算法平行運算的架構,打造出 AI 超級電腦 DGX。

2016 年,Nvidia 黃仁勳(就不說 Jensen 在辣妹簽胸前了😄)親手簽名把第一台 AI 超級電腦 DGX-1 送給 OpenAI,這時 Elon 還沒跟 Sam Altman 鬧翻。Nvidia 官方也有展示出 CPU 和 GPU 算力的差異。CPU 主要是一個一個進行運算,而 GPU 因為是平行運算,一瞬間就完成蒙娜麗莎的笑容。

— -

📒 Compiled by — Sigrid Chen, Rehabilitation Medicine Resident Physician at Taichung Tzu Chi Hospital, Occupational Therapist, Personal Trainer of the American College of Sports Medicine.

--

--

Sigrid C.
MDBros
Editor for

Founder of ERRK|Visiting Scholar @ Stanford University|Innovation Enthusiast for a better Homo Sapiens Simulator