全球大語言模型（LLM）排行榜亞太智能機器勇奪臺灣之光

Published in

APMIC

Dec 31, 2023

近年來，隨著人工智慧技術的飛速發展，大型語言模型（LLM）已成為研究領域中的焦點。這些LLM模型以其卓越的自然語言處理能力脫穎而出，能夠應對複雜的語言任務，例如文本生成、文本分類、情感分析等。然而，要全面評估這些模型的性能，迫切需要一個客觀、公正的排行榜作為參考。目前全球最知名的開放大語言模型（LLM）排行榜是由Hugging Face設立，用於評估開源大語言模型的公開榜單。在今年12月，臺灣的亞太智能機器（APMIC）團隊勇奪臺灣之光，目前以平均分數71.19暫居全球第64名，臺灣第1名的殊榮。

圖：APMIC團隊的大語言模型「CaiGun 開講」入選了Hugging Face百大語言模型排行榜

全球大型語言模型（LLM）排行榜涵蓋多個數據集，其中包括推理的選擇題（HellaSwag，HS）、基礎知識問答（WinoGrande，WG）、多理解任務（MultiModal Language Understanding，MMLU）等。這些數據集代表了多樣的挑戰，以綜合評估語言模型的能力。HS主要是基於常識的推理，挑戰語言模型對真實世界常識的理解和應用。這不同於傳統的語言理解測試，因為HS的問題通常包含具有迷惑性或非直觀答案的情境，挑戰模型的推理和常識理解能力。WG則是2019年美國華盛頓大學的Keisuke Sakaguchi等研究員發表了一個全新的單選試題集，在原先WSC的基礎上將內容擴充至4萬4千組選擇題，無論在規模或難度上都更勝一籌。WG目的是挑戰模型在基礎知識問答方面的表現，提供更全面的評估。MMLU則是是一個複合型基準測試，結合了多模式（例如文本、圖像等）來評估模型的多模式語言理解能力。這些基準測試的目的是提供一個綜合且有挑戰性的評估框架，以評估語言模型在不同方面的性能。

Google機器學習開發專家吳柏翰（Jerry Wu）指出，LLM排行榜目前在全球是最具公信力的大語言模型的公開榜單，並且全球領先的人工智慧團隊都在發展自己的大語言模型，於此榜單中進行較量。然而在全球AI浪潮的推動下，過去尚未有臺灣的AI團隊攻入榜單當中。為此，吳柏翰帶領亞太智能機器（APMIC）團隊，以caigun-lora-model挑戰LLM排行榜並奪得佳績。團隊成員希望大語言模型能夠在地化，所以取名為CaiGun，音同臺灣閩南語開講（khai-káng）。

「CaiGun 開講」是一款由國人團隊打造的在地化大語言模型，不只在挑戰大型語言模型排行榜中表現亮眼，同時這款模型具有出色的本地化特性，無論是處理文章、網站還是文件資料，都能輕鬆打造出最貼近當地用語和文化的對話機器人。創辦人吳柏翰指出，APMIC團隊不僅致力於打造CaiGun大語言模型，更在提升其繁體中文的辨識能力方面進行持續努力。CaiGun的獨特之處體現在其本地化的訓練過程，使得企業在使用CaiGun時，能夠體驗更高效、更準確的繁體中文處理。

我們可以期待，在未來的人工智慧浪潮之中，大型語言模型將會是百家爭鳴的局面，並且他們都致力於發展更便利的LLM框架。「CaiGun 開講」大語言模型目前也仍然在持續成長之中，或許在臺灣企業中將成為生成式AI的主力軍。

全球大語言模型（LLM）排行榜 亞太智能機器勇奪臺灣之光

Written by Arthur

全球大語言模型（LLM）排行榜亞太智能機器勇奪臺灣之光