全球大語言模型(LLM)排行榜 亞太智能機器勇奪臺灣之光

Arthur
APMIC
Published in
Dec 31, 2023
AI新契機,大語言模型排行榜首現臺灣團隊

近年來,隨著人工智慧技術的飛速發展,大型語言模型(LLM)已成為研究領域中的焦點。這些LLM模型以其卓越的自然語言處理能力脫穎而出,能夠應對複雜的語言任務,例如文本生成、文本分類、情感分析等。然而,要全面評估這些模型的性能,迫切需要一個客觀、公正的排行榜作為參考。目前全球最知名的開放大語言模型(LLM)排行榜是由Hugging Face設立,用於評估開源大語言模型的公開榜單。在今年12月,臺灣的亞太智能機器(APMIC)團隊勇奪臺灣之光,目前以平均分數71.19暫居全球第64名,臺灣第1名的殊榮。

圖:APMIC團隊的大語言模型「CaiGun 開講」入選了Hugging Face百大語言模型排行榜

全球大型語言模型(LLM)排行榜涵蓋多個數據集,其中包括推理的選擇題(HellaSwag,HS)、基礎知識問答(WinoGrande,WG)、多理解任務(MultiModal Language Understanding,MMLU)等。這些數據集代表了多樣的挑戰,以綜合評估語言模型的能力。HS主要是基於常識的推理,挑戰語言模型對真實世界常識的理解和應用。這不同於傳統的語言理解測試,因為HS的問題通常包含具有迷惑性或非直觀答案的情境,挑戰模型的推理和常識理解能力。WG則是2019年美國華盛頓大學的Keisuke Sakaguchi等研究員發表了一個全新的單選試題集,在原先WSC的基礎上將內容擴充至4萬4千組選擇題,無論在規模或難度上都更勝一籌。WG目的是挑戰模型在基礎知識問答方面的表現,提供更全面的評估。MMLU則是是一個複合型基準測試,結合了多模式(例如文本、圖像等)來評估模型的多模式語言理解能力。這些基準測試的目的是提供一個綜合且有挑戰性的評估框架,以評估語言模型在不同方面的性能。

Google機器學習開發專家吳柏翰(Jerry Wu)指出,LLM排行榜目前在全球是最具公信力的大語言模型的公開榜單,並且全球領先的人工智慧團隊都在發展自己的大語言模型,於此榜單中進行較量。然而在全球AI浪潮的推動下,過去尚未有臺灣的AI團隊攻入榜單當中。為此,吳柏翰帶領亞太智能機器(APMIC)團隊,以caigun-lora-model挑戰LLM排行榜並奪得佳績。團隊成員希望大語言模型能夠在地化,所以取名為CaiGun,音同臺灣閩南語開講(khai-káng)。

「CaiGun 開講」是一款由國人團隊打造的在地化大語言模型,不只在挑戰大型語言模型排行榜中表現亮眼,同時這款模型具有出色的本地化特性,無論是處理文章、網站還是文件資料,都能輕鬆打造出最貼近當地用語和文化的對話機器人。創辦人吳柏翰指出,APMIC團隊不僅致力於打造CaiGun大語言模型,更在提升其繁體中文的辨識能力方面進行持續努力。CaiGun的獨特之處體現在其本地化的訓練過程,使得企業在使用CaiGun時,能夠體驗更高效、更準確的繁體中文處理。

我們可以期待,在未來的人工智慧浪潮之中,大型語言模型將會是百家爭鳴的局面,並且他們都致力於發展更便利的LLM框架。「CaiGun 開講」大語言模型目前也仍然在持續成長之中,或許在臺灣企業中將成為生成式AI的主力軍。

--

--