如何利用 Transformer 模型實現自然語言處理的突破

Published in

MDBros

8 min readJun 9, 2024

GPT（Generative Pre-Trained Transformer）如何學習語言？

AI 已經是一個研究數十年的領域，機器學習是其開端。數學、物理學、電腦科學不斷探討人工智慧，從視覺、語言到機器人等多方面理解 AI，通往通用人工智能（Artificial General Intelligence, AGI）。圖像識別、人臉辨識（Face ID）、打字自動完成（Auto Complete）等應用，早已在我們的生活中隨處可見，不過這些都是「專門為特定任務」打造的 AI。

2017 年 6 月，Google Brain 團隊發現集中運算資源用 Transformer Deep Learning Model 架構的「Attention」機制，幫助 Neural Network 理解文字之間的關係，效果很好。隨後發表的 “Attention is All You Need” Transformer 模型論文，首次開啟 NLP（自然語言處理）時代的突破，理解人類的語言、自然語言訊息的處理，讓 LLM（大型語言模型）開啟 AGI 的時代。

GPT（生成式預訓練模型）是深度學習 AI，壓縮全世界的知識、產生湧現（Emergence）效果，不斷預測下一個單詞的 AI 模型。它本身沒有自我思考或情感的能力，比較像是一個全球知識、數十億人類文字/影像/多媒體檔案的壓縮庫。GPT 模型使用 Transformer Neural Network 來處理這些數據，結合 Supervised 與 Non-Supervised Learning。OpenAI 當初花費數千萬美金聘請人來標注網路上的圖片、影片、音樂，進行 Supervised Learning。目前，人類標注的回饋訓練是最有效的。GPT 的主要工作是在這些基礎上，去預測下一個最有可能的 Token（單詞）。

➊ 知識壓縮：如何把全世界的知識壓縮到 GPT 裡

學習的本質，可以理解為「對有效訊息進行無損壓縮（Data Compression）的過程」，壓縮率越大，學習效果越好。基於 GPT 的 LLM，就是一個收集了全世界所能收集到知識、性能卓越的數據壓縮器。OpenAI 首席科學家 Ilya Sutskever 說：「如果你能高效壓縮訊息，你一定已經得到知識 If you can efficiently compress information, you must have knowledge，不然你沒辦法壓縮訊息 Better compression reflects a deeper understanding of the data structure。所以，你把訊息高效壓縮的話，你總得有些知識 You got to have some knowledge。」

OpenAI 核心研發員 Jack Rae 說過，使用 LLM 進行無損壓縮對最小描述進行計算，希望大模型對任務的理解能力可以被數學公式量化。基礎模型的目標，是 Real-Time 實時對有效訊息最大限度的無損壓縮，把 GPT 複雜的原理，壓縮到一個數學公式就可以代表，如同牛頓定律 F = Ma 來描述物理世界；以更小的有效方法敘述長度，代表對任務有更好的理解，當我們對有效方法無損壓縮到最小長度時，就等於是對該任務的最優理解。語言模型的本質，是不斷預測下一個單詞的概率分佈、完成生成任務。

Jack Rae 用一張圖表示不同 LLM 壓縮時損失的資訊量。可以看到，LLaMA 模型的參數越大，壓縮後的資訊損失越少。如紅線 650 億參數的 Training Loss 比藍線 70 億參數快少一半，數據損失量越小，代表壓縮後的知識越多、越精準。像是最好的學習辦法就是教別人，如果還做不到教別人，代表還不夠理解。GPT 如果沒有理解、壓縮到極致，就無法生成下一個單詞。

➋ LLM 的湧現能力

我們小時候被教導要背誦很多詞彙、閱讀許多文章跟著造句，某天自己就突然能寫出一篇文章，但要重複或解釋這個過程、預測小朋友什麼時候突然會寫作文，是很抽象且困難的。同樣地，GPT 壓縮全世界的知識、讀全世界所有的文章，某個瞬間就融會貫通了。即使是 OpenAI Team 也很難描述他們對湧現的理解，只知道 Model 的數據到達超過 100 億等級的數量時，就會慢慢展開模型的湧現能力。

在不同的學科、領域，不同模型展開湧現的方式與時間點都不一樣。訓練數據在低於一定值的時候，各 LLM 的表現都差不多，但當模型訓練到一定數量時，預測準確性就會呈現指數性的飆升。

Andrew Ng 在 2023 年於 Stanford 的演講曾說過，早期 10–20 年前 AI 之所以沒有太大突破或看不到未來性，是因為早期硬體與數據量只有 Small Models，無論怎麼餵資料，其性能也不會隨著數據量增加而顯著提升。這幾年他在 Google Brain 的首要任務，是往 LLM 塞很多數據做訓練，發現給大語言模型越多資料，模型表現就會有指數性的上升。

擁有湧現能力後，AI 展示出的效果

⓵ Instruction / In-context Learning：學會連續多輪的對話、可以理解上下文，看到範本可以順利學習、甚至舉一反三。沒被訓練過的任務也可以學習，像學好英文後，學法文、德文等其他語言的速度也變得很快。

⓶ Step-by-step Reasoning（Chain-of-Thought）：對於需要多個步驟才能解決的問題，展現了逐步推理解決問題的能力。開始可以一步一步地思考，把大任務拆解成小任務完成。

⓷ Calibration：以前 GPT 就算錯了，也會覺得自己是對的。但有湧現能力後，GPT 知道自己不知道，會發現自己不知道哪些東西，並承認自己算錯了。

➌ Generative 生成 — 預測下一個單詞

湧現能力幫助 GPT 理解文字、段落、文章的上下文內容，並預測下一個可能會出現的單詞。這就是 AI 生成模型如 ChatGPT 和 Midjourney 玩的「下一個單詞/圖概率遊戲」。GPT 會不斷檢視目前上下文的窗口，預測下一個可能出現的詞，完成該句子，並不斷重複這個過程，直到完成更長的文章。本質上只是反覆地詢問：「根據到目前為止的前後文內容，下一個單詞應該是什麼？」但它只是「預測」，而不是「確認」的答案。每個出現的單字都是 GPT 猜測會有多少概率出現該詞，所以即使問 GPT 同樣的問題，它也會給不同的答案，因為本質上就是數學概率，猜測下個單詞可能是什麼，再給出它認為最適合的答案。

簡言之，GPT 是由 Transformer 壓縮全世界的資訊，產生出湧現效果，不斷預測下一個單詞的 AI 模型。它需要的算力和傳統電腦不太一樣，這五十年來傳統電腦是二進位 0–1 運算，CPU 是核心的算力基礎來源。GPT 的 Deep Learning 是基於矩陣的型態，需要在大量矩陣裡做平行運算。所有預測是多維度矩陣方程式的運算，Nvidia 早在 10 幾年前佈局 CUDA（Compute Unified Devices Architecture，統一計算架構）深度學習演算法平行運算的架構，打造出 AI 超級電腦 DGX。

2016 年，Nvidia 黃仁勳（就不說 Jensen 在辣妹簽胸前了😄）親手簽名把第一台 AI 超級電腦 DGX-1 送給 OpenAI，這時 Elon 還沒跟 Sam Altman 鬧翻。Nvidia 官方也有展示出 CPU 和 GPU 算力的差異。CPU 主要是一個一個進行運算，而 GPU 因為是平行運算，一瞬間就完成蒙娜麗莎的笑容。

— -

📒 Compiled by — Sigrid Chen, Rehabilitation Medicine Resident Physician at Taichung Tzu Chi Hospital, Occupational Therapist, Personal Trainer of the American College of Sports Medicine.

如何利用 Transformer 模型實現自然語言處理的突破

➊ 知識壓縮：如何把全世界的知識壓縮到 GPT 裡

➋ LLM 的湧現能力

➌ Generative 生成 — 預測下一個單詞

Written by Sigrid C.