大型語言模型（LLM）的發展

Published in

AI 講講話

6 min readAug 23, 2023

在上一篇開啟 AI 2.0 新時代我們提到「LLM」（Large Language Models，大型語言模型），它是奠定在深度學習的基礎上，可以進行語言理解、文本生成、圖像處理等多種任務，說到 LLM 的發展歷程，可以追溯到早期的統計語言模型和神經網絡語言模型。

統計語言模型

在統計語言模型中，以「N-gram」為例，我們在機器如何預測句子中的下一個字詞？ — — 淺談 N-gram 中有簡單介紹過。「N-gram」是觀察文本中所出現的文字組合，進行分詞和統計，推斷出下一個詞語出現的機率。

「N-gram」雖然在文本生成和語言理解方面有很大的貢獻，但利用「N-gram」所生成的文本，局部來看可能還能夠符合正確的語意或文法，但是對於較長的文本或上下文依賴性較強的語言預測效果並非達到最佳的成效，可能會顯得有些彆扭、詞不達意。例如以下的例子：

上圖為「N-gram」生成的英文文章，整體來看顯得詞不達意，應是表達下圖的意思。

神經網絡語言模型

在 AI 如何變聰明？（三） — — 模擬人類大腦的「類神經網路」中我們知道，「深度學習」（Deep Learning）是以「類神經網路」（Neural Network）為基礎，所延伸發展的技術。神經網絡語言模型透過深度神經網絡來建模文本中潛在的語義特徵，使得語言生成和理解更加精確。「CNN」（Convolutional Neural Networks）、「RNN」（Recurrent Neural Network）、「LSTM」（Long Short-Term Memory）等都是具代表性的神經網絡語言模型。

2017 年，Google 發表了「Transformer 模型」，它可以應用在問答系統、閱讀理解、情感分析、即時翻譯文字或語音等等。在「Transformer 」問世以前，研究人員必須替大型資料集加上標籤來訓練神經網絡，需要花費極高的成本與時間，而「Transformer 」可以一次處理所有輸入的資料，因此逐漸取代「CNN」、「RNN」等模型。爾後問世的「BERT」或「GPT-3」等模型，都是奠定在「Transformer」的基礎架構所發展而成。

大型語言模型（LLM）相繼問世

深度學習在自然語言處理、語音識別、圖像識別等領域展現了突出的成效，成為人工智慧領域最重要的技術之一。2018 年是自然語言處理模型是大規模突破的重要時刻，由於深度學習的快速發展，同時為了因應各個領域和產業處理大量數據資料的需求，LLM 成為自然語言處理領域的一個熱門研究方向，至今研究者們所開發出的模型少說有一百種以上。

2018 年，OpenAI 提出了「GPT」、Google 提出了「BERT」模型，它們被廣泛應用於搜尋引擎、語音識別、機器翻譯、問答系統等等。

生成式 AI（Generative AI）

屬於 LLM 之一的「GPT 模型」由 OpenAI 推出，它屬於一種生成式 AI（Generative AI），即它可以生成自己的輸出，不需要人工標記的資料，直接自動學習字詞之間的語義和語法關係，「GPT」使用已經學習到的上下文語言模型，去理解語言結構並生成新的文字。

「GPT」的主要特點就是它可以從未標記的文字資料中自動學習到自然語言的文法、詞彙及上下文的關係等，使得訓練成本大幅降低，且可以應對更多樣化的自然語言處理任務，例如：自然語言生成、圖像生成、語音生成等都有很好的效果。

OpenAI 在 2018 年 6 月發布了「GPT」、2019 年 2 月發布「GPT-2」、2020 年 5 月發布「GPT-3」，其實模型演算沒有太大改變，不過訓練的資料量從 5 GB、40 GB 增加到 45 TB，其中「GPT-3」訓練一次要花費 460 萬美元，總訓練成本高達 1,200 萬美元。

而在 2022 年推出的「GPT-3.5」增加了人類對模型輸出結果的調整，提升回答的準確率，成為「ChatGPT」萌芽的基礎。