不同於以往的 pretraining — BloombergGPT
Dec 26, 2023
重點摘錄如下:
- 混合語料庫預訓練方法:BloombergGPT 在預訓練階段同時使用了通用域和金融特定域的語料庫。例如,它可能同時學習了來自新聞網站的一般文章(如政治、文化等)和專門的金融報告或市場分析。這種混合使模型既瞭解一般語言,又對金融術語和概念有深刻理解。用於預訓練 BloombergGPT 的特定域語料庫主要來自 Bloomberg Terminal,而這是一個廣泛使用的金融數據和分析平台,其數據包括金融新聞、市場報告、和經濟分析等,是金融專業人士常使用的資源。訓練資料的 Data Mixture 比例如下表:
- 與傳統方法的不同:傳統的大型語言模型(如GPT-3)首先只使用通用語料庫進行預訓練,然後在特定的應用領域進行微調。而BloombergGPT 從一開始就融合了這兩種語料,目的是直接訓練模型對金融領域的深入理解。
- 優點:這種方法使BloombergGPT 在理解金融市場、分析金融報告或預測市場趨勢方面更加專業和精確。它更好地捕捉了金融領域的特殊術語和概念。
- 缺點:這可能會讓模型在非金融領域的表現受到限制。然而,根據論文的結果,這種影響似乎不顯著,因為BloombergGPT 在通用語言任務上仍然表現良好。
有研究者去試各種不同LLM 的訓練方法是件好事,讓我們可以基於前人的研究來加快自己的研發!
Reference:
- BloombergGPT: A Large Language Model for Finance, https://arxiv.org/pdf/2303.17564.pdf