LLM 規格比較 | 盤點 ChatGPT, Gemini, Claude, Mistral, llama 等模型

ChiChieh Huang
4 min readMar 18, 2024

--

最後更新:2024/04/26

在過去的幾個月中,LLM 成長非常迅速,這些模型的能力驚人應用也很廣泛,從撰寫文章到創作音樂,乃至於解答複雜的科學問題等等。而最近,Gemini 1.5 和 Claude 3 先後發布進一步加劇了這一領域的競爭,各種 LLM 的規格變得越來越複雜,因此我決定花時間來整理一份最新的規格比較表,其中包含 OpenAI、Google、Anthropic、Meta 以及 Mistral AI 等模型。

這份比較表旨在為大家提供一個清晰的視角,幫助理解各大產商 LLM 的關鍵規格,包含了 Model Size、Training Data 到 Context Window 等多個維度的比較。

這份整理表我有放在 Github:Comparison-of-LLM-Specifications,在 Github 中你可以找到各個不確定訊息的來源,另外如果你在其中有發現任何錯誤、想要討論,或是有新的資料想要補充,非常歡迎你提出 issue 或提交 PR,期望能透過這種方式不斷地完善這份文件,也高資料的質量。我希望這份工作能夠為對機器學習和人工智能發展感興趣的人提供價值,無論你是一名研究人員、開發者,還是僅僅是一位愛好者。

4月更新

這個月 open source 推出非常多的模型,新增 xAI: Grok-1, Apple: MM1, Snowflake: Arctic, Cohere: Command R+, Mistral AI: Mixtral 8x22B, Meta: Llama3。

  • GPT-4 一度被 Claude 3 Opus 超越,但更新後又回歸第一名
  • Llama3 400B 數據顯示其能打敗最弱的 GPT-4,但尚未開源。
  • Command R+ 是專為 RAG 設計的。

3月更新

主要比較 OpenAI、Google、Anthropic、Meta 以及 Mistral AI 等著名模型,現階段 GPT-4 還是第一名。

其他補充

  • 目前 Gemini 1.5 和 Claude 3 都在 Context Window 下了很大的功夫,前者在技術文件中,甚至提到 Gemini 1.5 可以處理 10m,並且可以準確理解內文,這對於 openai 的 GPT 系列無疑是一大競爭對手,因為 RAG 系統的出現,某種程度就是因為 LLM 無法處理太大量的 Context Window。
  • Claude 3 一直是以安全性著稱,這部分這邊沒有探討。
  • 各家產商細部的模型太多,便不放在此討論,如果你有興趣可以參考 Wolfram Ravenwolf 的 LLM Comparison/Test

名詞解釋:

  • Parameters Size: 參數大小是用來衡量一個模型的「容量」或複雜
  • MoE (Mixture of Experts): MoE 結構指的是一種將模型分成多個專家(experts)的架構,每個專家負責學習輸入數據的不同部分。這種結構能夠有效提升模型的學習能力和適應性,因為它允許模型根據輸入選擇最合適的專家處理。
  • Training Data (Date): 指訓練 LLM 的資料大小,日期是指的是資料收集的時間範圍。
  • Output Token: 指模型在單次輸出中能夠生成的最大 token 數量。Token通常是指單詞或子詞的表示,這個數字反映了模型生成文本的長度上限。
  • Context Window: 是指模型在進行預測時能考慮的最大字符(或token)數。
  • Type: close: 模型的訪問類型,開放獲取(open source)或私有(close)。
  • Release Date: 該模型版本公開發布的日期。

--

--

ChiChieh Huang

HI~ 我目前正在從事 Generative AI 的產品開發,熱愛桌球與奇幻小說,想使用中文字向中文社群分享 AI 相關知識。若有新的機會或相關合作,歡迎聯繫我: cch.chichieh@gmail.com