大型語言模型(LLM)的發展

AI Justka
AI 講講話
Published in
6 min readAug 23, 2023
Photo by Ars Technica on Pinterest

在上一篇 開啟 AI 2.0 新時代 我們提到「LLM」(Large Language Models,大型語言模型),它是奠定在深度學習的基礎上,可以進行語言理解、文本生成、圖像處理等多種任務,說到 LLM 的發展歷程,可以追溯到早期的統計語言模型和神經網絡語言模型。

統計語言模型

在統計語言模型中,以「N-gram」為例,我們在 機器如何預測句子中的下一個字詞? — — 淺談 N-gram 中有簡單介紹過。「N-gram」是觀察文本中所出現的文字組合,進行分詞和統計,推斷出下一個詞語出現的機率。

「N-gram」雖然在文本生成和語言理解方面有很大的貢獻,但利用「N-gram」所生成的文本,局部來看可能還能夠符合正確的語意或文法,但是對於較長的文本或上下文依賴性較強的語言預測效果並非達到最佳的成效,可能會顯得有些彆扭、詞不達意。例如以下的例子:

「N-gram」生成的中文例子
上圖為「N-gram」生成的英文文章,整體來看顯得詞不達意,應是表達下圖的意思。

神經網絡語言模型

AI 如何變聰明?(三) — — 模擬人類大腦的「類神經網路」 中我們知道,「深度學習」(Deep Learning)是以「類神經網路」(Neural Network)為基礎,所延伸發展的技術。神經網絡語言模型透過深度神經網絡來建模文本中潛在的語義特徵,使得語言生成和理解更加精確。「CNN」(Convolutional Neural Networks)、「RNN」(Recurrent Neural Network)、「LSTM」(Long Short-Term Memory)等都是具代表性的神經網絡語言模型。

2017 年,Google 發表了「Transformer 模型」,它可以應用在問答系統、閱讀理解、情感分析、即時翻譯文字或語音等等。在「Transformer 」問世以前,研究人員必須替大型資料集加上標籤來訓練神經網絡,需要花費極高的成本與時間,而「Transformer 」可以一次處理所有輸入的資料,因此逐漸取代「CNN」、「RNN」等模型。爾後問世的「BERT」或「GPT-3」等模型,都是奠定在「Transformer」的基礎架構所發展而成。

大型語言模型(LLM)相繼問世

深度學習在自然語言處理、語音識別、圖像識別等領域展現了突出的成效,成為人工智慧領域最重要的技術之一。2018 年是自然語言處理模型是大規模突破的重要時刻,由於深度學習的快速發展,同時為了因應各個領域和產業處理大量數據資料的需求,LLM 成為自然語言處理領域的一個熱門研究方向,至今研究者們所開發出的模型少說有一百種以上。

2018 年,OpenAI 提出了「GPT」、Google 提出了「BERT」模型,它們被廣泛應用於搜尋引擎、語音識別、機器翻譯、問答系統等等。

語言模型的發展歷程

生成式 AI(Generative AI)

屬於 LLM 之一的 「GPT 模型」由 OpenAI 推出,它屬於一種生成式 AI(Generative AI),即它可以生成自己的輸出,不需要人工標記的資料,直接自動學習字詞之間的語義和語法關係,「GPT」 使用已經學習到的上下文語言模型,去理解語言結構並生成新的文字。

「GPT」的主要特點就是它可以從未標記的文字資料中自動學習到自然語言的文法、詞彙及上下文的關係等,使得訓練成本大幅降低,且可以應對更多樣化的自然語言處理任務,例如:自然語言生成、圖像生成、語音生成等都有很好的效果。

OpenAI 在 2018 年 6 月發布了「GPT」、2019 年 2 月發布「GPT-2」、2020 年 5 月發布「GPT-3」,其實模型演算沒有太大改變,不過訓練的資料量從 5 GB、40 GB 增加到 45 TB,其中「GPT-3」訓練一次要花費 460 萬美元,總訓練成本高達 1,200 萬美元。

而在 2022 年推出的「GPT-3.5」增加了人類對模型輸出結果的調整,提升回答的準確率,成為「ChatGPT」萌芽的基礎。

GPT 再進化 — — 「ChatGPT」

2022 年,OpenAI 推出 「ChatGPT」 獲得熱烈的關注,它之所以會成為熱門話題,是因為它具備過去「GPT」所缺乏的「對話功能」。

OpenAI 在 2018年發表「GPT-1」以來,尚未獲得如此廣泛的討論,因為像「GPT-3」只能執行單向任務,需要人工執行指令操作,限制了實際應用的範圍。對大眾而言,相比模型背後所擁有的知識量,更關注模型的「溝通能力」,也因此「ChatGPT」的誕生才讓人們驚覺到 AI 在近年來的迅速發展。

由 OpenAI 開發的 ChatGPT 聊天機器人從 2022 年 11 月開放免費試用

「GPT-4」登場

「ChatGPT」問世沒多久,當眾人還在驚呼 AI 對我們生活的突破與影響之際,2023 年 3 月,OpenAI 又再推出了「GPT-4」。比起「ChatGPT」以文字輸入,「GPT-4」又多具備讀懂圖像和文字的能力。

雖然「GPT-4」的性能提升了,但仍然有尚未無法克服的問題,像是無中生有的文字或是生成有偏差的回答等,且它與「GPT-3」一樣,訓練的資料只到 2021 年 9 月。

不過就 AI 的迅速發展來看,我們可以期待在不久的將來,AI 能夠完成的任務將會更加複雜且多元,介入我們人類生活的範圍也將逐漸擴大。

--

--