[金融科技] 如何用AI撰寫高品質的文章(1) — 基礎概念與品質指標

Andrew Wang
人工智慧與財務分析
9 min readJun 16, 2024

隨著大型語言模型的興起,許多人開始使用AI協助撰寫報告和文章,然而,單純使用ChatGPT等通用語言模型生成文章,常常會出現誤差或錯誤。本文將分享如何利用大型語言模型完成專業且精準度高的研究報告。從事的金融AI和醫療AI等專業領域中,報告的專業性和準確性尤為重要。如何運用AI撰寫正確且高品質的文章,是一項值得探討的課題。我將根據個人經驗,介紹能夠提升報告專業度和精準度的方法。

這系列非入門文章,需具有語言模型、embedding等基礎觀念,共有三篇:
1. 基礎概念與品質指標 (本文)
2. 使用MongoDB結合向量資料庫與全文搜尋
3. 使用LangGraph打造素材選擇與審稿的流程

基礎概念

用AI撰寫一篇優質文章,需要注意以下三個重點:

1. 準確度高的語言模型: 近年來出現的GPT-3、GPT-4、Claude等大型語言模型,顯著提升了AI撰寫文章的品質,優秀的語言模型就像人類的大腦,理解能力和可靠性是核心基礎。

2. 清晰有效的提示詞(Prompt): 語言模型需要透過提示詞與其溝通互動,就像老闆給員工下指令一樣,提示詞越完整明確,模型完成任務的效果通常也越好。許多研究探討了撰寫高質量提示詞的技巧,這邊就不贅述。

3. 充足準確的材料資訊: 要用AI撰寫高品質的專業文章,提供充足準確的素材資訊至關重要,就像研究生撰寫論文,耗時的往往是收集並梳理相關文獻、實驗數據、問卷調查等資料,僅憑語言能力和指導建議是無法完成的。

透過優秀的語言模型、清晰的提示詞、充足準確的材料資訊等要素的融合,我們就能利用AI的力量撰寫出品質卓越的文章內容。

不同類型文章需採用不同方式提供材料

我將文章分為四種類型,說明如何為語言模型提供正確材料:

1. 一般常識型文章: 直接詢問ChatGPT等大型語言模型即可生成,語言模型本身的知識就可以產生這類的文章。這好比體檢完,醫生都叫你多運動、減肥大多建議控制飲食並多運動等,不需提供額外材料,就可以得到正確的知識或內容。但對於專業領域的文章,僅使用通用語言模型可能會產生嚴重錯誤,例如某線上課程教導使用AI做搜尋引擎優化(SEO)的教學,僅使用ChatGPT,撰寫數篇保險相關文章,內容錯誤百出。

2. 專業領域的文章: 需提供正確專業知識資料給語言模型,例如公司內部資料、金融產品資訊、醫院論文、法律文件等等,因為通用語言模型不一定有這些專業知識。有三種常見方式:

(1) 完整文字材料: 直接提供大量相關文字資料,供大型語言模型直接處理生成。近期大型語言模型可以接受的token的長度越來越長,例如Claude 3的大型語言模型可接受15萬個單詞。這方法可以得到品質較佳、較可靠的內容。

(2) 擷取增強生成 (RAG): 所謂RAG(Retrieval-Augmented Generation)就是從語言模型以外的知識,建立專業資料庫,語言模型根據知識庫檢索(Retrieval)結果做知識增量(Augmented),並生成(Generation)內容,無需重新訓練模型。專業領域內容龐大時,常採用此方式。此系列文章以此方法為主做大量延伸。

RAG 流程(圖片來源: https://towardsdatascience.com/retrieval-augmented-generation-rag-from-theory-to-langchain-implementation-4e9bd5f6a4f2)

(3) 微調模型: 使用專業領域資料重新訓練語言模型參數,但資料量需足夠大,例如有過去數十年上百萬筆客服資料等等,否則可能會損害原模型效能,或者得到非預期的功能。近年來,不少聊天機器人因使用微調模型方法且資料不足而出現失誤。有些專家在演講或顧問時總是建議這種方法,卻沒有實際上線訓練過模型,似乎只是看過文件或論文、沒有實際操作經驗,導致實際上線出現大量錯誤。

3. 內容隨時間變動文章: 如電商產品行銷、財經相關報告等,強烈建議使用RAG,因為電商產品或財經相關資訊變化較快,重新微調模型的成本過高。之前聽過一場演講,一位電商工程師分享微調模型經驗,我問他如果產品變動怎麼辦,講者竟然說重新訓練微調模型,只能說這工程師完全不顧老闆的成本,產品每天變動,系統哪有上線的一天。

4. 資料來源多元且內容變動快的文章: 例如股票研究報告、授信報告等,資料時間變化快,需結合量化和質化數據等不同來源。這種情況下,需要依提示詞調用API提供文字,或透過RAG檢索資料,流程控制和系統架構也至關重要。

可見,撰寫專業且高品質文章,條件之一是提供高品質材料,而RAG是其中一種重要技術,可有效整合外部知識,避免重新訓練模型的高昂代價。

RAG的品質指標Ragas

評估RAG(Retrieval-Augmented Generation)品質的指標,是RAG相關課程中較少探討的部分。然而,在實際實作時,如何有效評估RAG的品質至關重要。RAG方法包含檢索(Retrieval)生成(Generation)兩個環節,因此我們採用的品質評估指標也分為這兩個部分,這裡我們使用的是 Ragas (RAG Assessment)的方法,詳細可見Ragas的官方文件

在檢索部分,使用Ragas的以下兩個指標:
(1) Context precision: 評估檢索到的文件中,正確性的指標。
(2) Context recall: 評估檢索的文件中,與正確答案的一致性。

而在生成部分,關注Ragas以下兩個指標:
(1) Faithfulness: 評估生成內容與檢索文本的一致性,避免產生幻覺。
(2) Answer relevancy: 評估生成答案與原始問題的相關程度。

以台積電投資資訊檢索為例:

(1) 直接使用ChatGPT:
撰寫一篇「台積電股價及五項新聞摘要」投資訊息,ChatGPT生成的內容如下,內容不是錯誤,就是過去較早期的資料,無法得到正確且即時的訊息,那很多論文使用ChatGPT投資報酬率很好是怎麼回事呢? 原因是ChatGPT僅依賴其訓練數據中過去的資訊,而非真正具備投資決策能力,一個無法獲取正確即時股價的模型,能提供可靠的投資指引?

由ChatGPT產生

即使讓ChatGPT有聯網功能,正確性有稍微提升,但也常常無法抓到正確時間點的資料,例如以下例子,但還有4月的舊聞,並不是好的結果。以品質指標的角度,這兩者都是不合格的。

可以連上網路的ChatGPT產生

(2) 使用最簡單的RAG:
我們可以建立台積電相關資訊的知識庫,更額外進行量化分析,透過RAG架構讓ChatGPT在生成內容時,參考這些外部知識來源,獲取更準確的最新資訊。同樣是「台積電股價及五項新聞摘要」,品質指標context precision=1.00、context recall = 0.17,顯示評估檢索到的文件中,已經有正確性的資料。

(3) 進一步使用MultiQueryRetriever:
MultiQueryRetriever根據問題生成多個查詢,提高檢索到的文本與問題的相關性,進而生成更貼近問題本身的答案,可以優化RAG的檢索效果。同樣是「台積電股價及五項新聞摘要」,品質指標context precision=1.00、context recall = 0.33,提高Context recall的指標,加強之後生成答案的準確度。

最後我們再加上更多Retriever技巧,透過品質指標改善檢索結果以及生成品質,最後可以得到以下的答案,比之前的答案準確許多,可至《FindBillion投資助手》自行嘗試。

FindBillion投資助手

透過RAG等技術的輔助,大型語言模型能夠充分利用外部知識補足自身的不足,生成更準確可靠的專業內容。未來在投資領域等對及時性和準確性要求較高的場景,相信這些技術將可提供更有效率的投資資訊。

結論

你會找國文老師提供投資建議嗎? 又或者找英文老師撰寫專業的醫學報告嗎? 通常不會。同理,要讓語言模型生成高品質的專業內容,就必須為它提供正確且相關的材料資訊。透過有效的檢索和過濾,從資料中精準獲取所需的專業知識,為模型生成高品質專業內容打好基礎。

我們正在開發一個AI證券分析系統,整合量化和質化等不同類型的數據,產生金融相關的報告,並已申請金融科技相關專利。目前,該系統正處於實驗階段,希望系統最終能夠具備撰寫個股研究報告等功能,現階段提供台積電研究報告聯發科研究報告中信金研究報告玉山金研究報告以及投資幫手等實驗,未來我們將擴展應用範疇,包括徵信報告撰寫、理財機器人等。

AI在金融領域的應用正日漸引起關注,我們的目標是開發出一個能夠提供專業分析和見解的智能系統,為投資者和金融從業人員提供有價值的輔助工具,未來我們將擴展應用範疇,包括徵信報告撰寫、理財機器人等。下一篇文章中,我將介紹如何利用 MongoDB 的全文檢索及Metadata過濾功能,提高為語言模型提供材料時的準確度。

— — — — — — — — — — — — — — — -

作者: 王淳恆 (Andrew Wang)
奇享智能創辦人兼執行長
FindBillion.com創辦人
Kaggle(Google旗下資料科學與人工智慧競賽平台)競賽Expert等級

曾任:
台灣人工智慧學校 經理人班/醫療專班 講師
沐恩生醫 技術長
台灣生醫人工智慧研究發展協會 秘書長
聯發科技 人工智慧智能技術群 技術副理

學歷:
交通大學 電信工程研究所 碩士

金融證照:
證券商高級業務員

專長領域:
人工智慧與財務分析 (2010~至今)
人工智慧與影像分析 (2015~至今)
人工智慧與醫療分析 (2018~至今)
10年以上人工智慧研發經驗
20年以上通訊與影像的晶片設計、訊號處理與演算法相關工作經驗

經歷:
Kaggle(Google旗下資料科學與人工智慧競賽平台)三銀二銅
Kaggle史上最高獎金的競賽銀牌
2018 RSNA肺炎偵測競賽銀牌
2017年人工智慧年會 講者
政治大學/成功大學/台科大/高雄科大/東海大學/世新大學業界講師
9項台灣專利/3項美國專利/3項日本專利
與醫師合作 6篇醫學AI期刊論文/多篇會議論文

--

--