ChatGPT 為什麼那麼紅?

一次了解歷代 GPT 模型

AI Justka
AI 講講話
8 min readAug 23, 2023

--

Photo by Freelancer Talent Marketplace on Pinterest

開啟 AI 2.0 新時代 中,我們提到 LLM(大型語言模型,Large Language Model)日漸興盛,在 大型語言模型(LLM)的發展大型語言模型(LLM)對自然語言處理(NLP)的影響 中也有稍微提到過 GPT 模型。自從 ChatGPT 出世後所引起的 AI 熱潮,你應該時不時就會聽到這個名字,究竟 ChatGPT 為什麼那麼紅?它並不是突然憑空而降的強大技術,是歷經數年的研究累積而成,我們一起來了解歷代 GPT 模型。

「GPT-1」 — — 「Pre-trained Model」+「Fine-tuning」模式

GPT 是 Generative Pre-trained Transformer 的簡稱,由美國的人工智慧研究實驗室 — — OpenAI 所研發。2018 年 6 月「GPT-1」誕生,它是以 Google 在 2017 年提出的「Transformer 」模型為基礎訓練而成。

在「GPT-1」出現以前,NLP 模型要完成特定任務時,主要是依靠大量手動標注的資料進行「監督式學習」(可參考:AI 如何變聰明?(二) — — 什麼是「機器學習」),由於大量被標注好的資料需要花費許多人力與時間,這是訓練 NLP 模型的一大限制。

為了克服這個限制,OpenAI 發表了利用無標注數據構建的生成語言模型 — — 「GPT-1」。先用無標注的數據以非監督式學習的方式訓練一個「Pre-trained Model」(預訓練模型)。

接著在模型能夠理解文字含義的基礎上,用少量有標注的數據訓練模型並進行各項任務,例如:文本分類、文本相似度比較等,此階段稱為「Fine-tuning」(微調)。

GPT-1 的架構:預訓練 Pre-training + 微調 Fine-tuning

「GPT-2」 — — 使用非監督式模型學習完成多個任務

2019 年 2 月 OpenAI 發表的「GPT-2」的目標則是希望使用相同的非監督式模型可以學習多個任務,例如:

當語言模型學習了「Micheal Jordan is the best basketball player in the history.」這段文字,請它將英文「Who is the best basketball player in the history ? 」翻譯成中文,期望它會輸出:「歷史上最好的籃球運動員是誰?」;而向它詢問「Who is the best basketball player in the history ? 」時,期望它答案輸出:「Micheal Jordan」。

語言模型可以完成多樣任務。

為了讓語言模型可以執行多個任務就需要有足夠豐富的數據量,因此「GPT-2」的預訓練數據量從「GPT-1」的 5GB 增長到 40 GB,另外也引入了「Zero-shot」,也就是現在我們常聽到的「Prompt」技術之一,即指令或提示,指對模型問問題或提出請求的文字提示。

所謂「Zero-shot」,是指你要完成一項任務,但你沒有標註過的數據可以訓練模型,如下圖的例子,將「Zero-shot」應用在中文翻譯成英文,首先給一句任務描述,接著給一個中文,期望模型將它翻譯成英文:

Zero-shot

「GPT-3」 — — 「資料量倍增」+「In-context Learning」

OpenAI 在 2020 年發表了「GPT-3」,它有更強的性能及更大的參數和資料量,「GPT-3」的參數量是「GPT-2」的 100 倍以上,資料量也多出 10 倍以上,文本包含了更多樣的主題,且含有更多高品質的資料,是當時最強大的大型語言模型。

由於「GPT-3」資料量的增加,在進行「Zero-shot」或「Few-shot」技術時也得到更好的效果。如同上述「Zero-shot」的例子,另外還有所謂的「One-shot」及「Few-shot」。

「One-shot」是指多加一個標注過的數據,提供範例給語言模型參考,如下圖:

One-shot

而「Few-shot」是給語言模型更多的範例,期望模型輸出的答案更為準確,如下圖:

Few-shot

以上「Zero-shot」、「One-shot」、「Few-shot」等皆是「In-context Learning」技術,它是「GPT-3」的一大重點,「In-context Learning」是指當大型語言模型在吸收更多數據的同時,也開始學會識別數據的模式,我們只要給它少量的提示或任務說明,它就可以根據過去學習到的相似數據做匹配,並執行任務輸出答案。

可惜的是「GPT-3」發布時正值全球新冠肺炎疫情嚴峻的時期,人們的注意力集中在應對疫情,人工智慧的發展在當時缺乏足夠的關注。另外,「GPT-3」無法像「ChatGPT」一樣進行對話,只能執行單向的任務,因此只有少數開發者才有能力去應用「GPT-3」。

「GPT-3.5」 — — 在「ChatGPT」來臨之前

「GPT-3」雖然是一個強大的語言模型,但為了有更好的成效,「GPT-3.5」在「GPT-3」的基礎下進行「Fine-tuning」(微調),並訓練一個「Reward Model」(獎勵模型),讓人類評斷語言模型的輸出品質,再使用「Reinforcement Learning」(強化學習)優化語言模型,使模型的輸出越來越接近我們理想的答案,此技術稱之為「RLHF」(Reinforcement Learning from Human Feedback)。

「GPT-3.5」可以做更複雜的語言分析,例如情感分析、語法結構分析等。爾後誕生的「ChatGPT」便是以「GPT-3.5」為基礎進行改進和優化。

「ChatGPT」 — — 掀起全球 AI 熱潮

2022 年底, OpenAI 發表「ChatGPT」後,掀起一股 AI 炫風,它之所以會獲得如此廣泛的關注,是因為它具有的關鍵功能 — — 「人類可以與 AI 模型直接溝通」。你不需要擁有程式背景,就可以輕鬆利用 AI 完成工作,並且被廣泛應用在教育、醫療、金融等各個不同的領域,隨著 GPT 不斷地學習,它的應用範圍可能會不斷擴大,對我們的生活產生更深遠的影響。

「ChatGPT」是建立在「GPT-3.5」的基礎上,再多增加了「對話功能」,還能夠將過去的對話記錄下來,並且調整回答的方式,達到更接近我們預期的效果。

「GPT-4」 — — 「GPT」再升級

OpenAI 在 2023 年推出「GPT-4」,比起之前的 GPT 模型,「GPT-4」的準確度更高,並且有更多強大的功能。

如同在開啟 AI 2.0 新時代所述,「GPT-4」可以辨識圖像,將圖像轉換成文字,甚至連複雜的圖像,如圖表或一張學術論文的截圖,「GPT-4」都可以用文字去做分析說明;另外也可以下指令讓「GPT-4」揣摩某個角色,模仿特定人類的說話風格進行回答。

GPT-4 針對圖表輸出文字說明
GPT-4 根據學術論文的截圖輸出文字說明

下圖為「GPT-1」至「GPT-4」歷代模型的比較供參考:

「GPT-1」至「GPT-4」歷代模型比較

--

--