Healthcare GPT Model 準確度基準探討・技術解讀與應用

Published in

MDBros

11 min readMay 17, 2024

John Snow Labs 這間公司針對健康照護及生命科學產業，推出新的大型語言模型（Large Language Models, LLM）暨軟體平台「Healthcare GPT Model」，今天我們要來探討的是 Healthcare GPT Model 的 Accuracy Benchmarks。

他們在 2024 年 3 月針對醫藥產業正在使用生成式（Generative）AI 的大公司從業人員及主管進行調查，想瞭解：當你們在評估 LLM 時，最重視的是什麼？

不太意外，第一名是準確度 Accuracy；緊追在後的是安全及隱私性 Security 與 Privacy，確保資料沒有洩露；第三名則是 Healthcare-Specific Models，也就是這個模型是符合健康照護產業需求來建構的。

參考調查的結果，Healthcare GPT Model 同時作為聊天機器人，希望能符合以下條件：

✓ 在 Health-Specific 任務達到 Superior Accuracy
✓ 在防火牆後確保運作的隱私性，沒有第三方 APIs 或資料共享
✓ 每天更新所有醫學知識
✓ 產出高度一致性的結果
✓ 沒有幻覺（Hallucinate），產出都是有根據的出處
✓ 答案具有可解釋性
✓ 支援自有知識庫
✓ 可供自有品牌及團隊做模型輸出文字語氣的微調

為了達成以上的功能性，產品的架構要優先思考的可能不是要模型要有多少參數，而應思考：

☉ 多重 LLM、多重代理人架構來完成不同的任務 [Multi-LLM, Multi-Agent Architecture]
☉ 涵納諸多臨床試驗如 PubMed 等醫療知識資料庫 [Comes with Medical Knowledge Bases]
☉ 內建檢索增強生成（Retrieval-Augmented Generation, RAG）的後端，給予加入自家公司資料（PDF、圖像、標準化文字等格式）的彈性 [Built-in RAG]
☉ 企業級高度監管的加密、資安與可規模性 [Enterprise Grade Security & Scalability]

這次的重點不是模型架構，而是如何去評估它的 Accuracy。John Snow Labs 首先在 2024 年 1–3 月從生醫研究著手，去 PubMedQA 挑選可以從已發表文獻的摘要找到答案的問題，分別問 OpenAI 當時最高準確率的 GPT-4 和 John Snow LABS 的 Healthcare-GPT，把這兩個模型回答的答案拿去給有在執業的臨床醫師盲測，呈現的格式是無法直接區辨答案是從哪個模型生出來的。他們問這兩個模型的研究問題範例如下：

✎ 肝癌病人接受 Lenvatinib 及 TACE 的無惡化存活期中位數為何？What was the median progression-free survival rate for Lenvatinib with transarterial chemoembolization?
✎ 縱膈腔鏡輔助的食道摘除術所導致的喉返神經損傷風險有比較高嗎？Is the risk of recurrent laryngeal nerve injury higher in mediastinoscopy-assisted esophagectomy?
✎ 顏面創傷的重建手術最新進展為何？What are the latest developments in reconstructive surgery following facial trauma?
✎ Triptans 此藥物用於治療急性叢發性頭痛病人的證據？Is there evidence to support the use of Triptans in people with acute cluster headaches?
✎ 肌抽躍失姿態癲癇的可能致病基因有哪些？What are the possible causative genes of myoclonic-astatic epilepsy?

/// 評估 Medical Q&A 問答

醫療 Q&A 產品希望臨床醫師能實際在工作場域上應用，他們觀察到醫師主要會看以下三個面向，來決定是否「合用」：

① Writing Style
今天我問 Q&A 聊天機器人問題時，它是否能
🅥 在第一個句子就破題精準回答（譬如是非題就答 Yes / No、不知道就說不知道）
🅥 加上必要、相關的細節
🅥 文法正確通順，易於閱讀
🅥 以具有同理心的語氣回答

② Clinical Correctness & Explainability
用醫療專業的角度來看，Q&A 聊天機器人給出的答案是否能
🅥 沒有幻覺
🅥 提供正確標準、與時俱進的醫療知識
🅥 符合目前醫藥健康領域的共識
🅥 給予真確、可信的 References
🅥 列出可回答問題的 References

③ Completeness
當醫師要深入研究一個主題或領域時，Q&A 聊天機器人是否能找出
🅥 能回答研究問題最新發表的文獻及內容
🅥 能回答研究問題最新的 Meta-analysis
🅥 更高 Impact Factor、被引用越多次的雜誌文獻
🅥 試驗設計更好的文獻
🅥 文獻所參考的適應症

根據 John Snow Labs 的調查結果，跟 GPT-4 比較起來，他們的 Medical Chatbot 在 Writing Style 和 GPT-4 差不多，但 Correctness 和 Completeness 則贏 GPT-4 不少，特別是在 References Correctness 的部分大勝。

不過以上是針對 PubMed 所收錄的文獻來做比較，PubMed 的優點是文章很多都是實驗設計嚴謹的生醫研究，但回到現實臨床現場，醫師會想透過軟體來協助診療或與病人溝通所問的問題，跟研究者會探究的有所不同。可能不是每個正在看門診的醫師都會關心基因轉譯蛋白突變的議題，而是會想知道開某個藥或做某類型的治療，對眼前這個病人的好處及壞處有哪些。此外，幾乎所有 LLM 都會用 PubMed 作為訓練集，而在網路上 PubMed QA 問的問題、已經有的答案都可以搜尋得到，這樣就有點在作弊的嫌疑。John Snow Labs 訪問醫師會想問哪些問題，結果範例如下：

✏ 氣喘與慢性阻塞性肺病重疊症候群 ACOS 的藥物治療是什麼？What is the pharmacological treatment of asthma-chronic obstructive pulmonary disease overlap syndrome (ACOS)?
✏ 快速破壞性退化性髖關節炎相關的基因有哪些？What are the genetic factors linked to rapidly destructive hip osteoarthritis?
✏ 接受支氣管鏡檢查的禁忌症為何？Are there any contraindications that might make someone ineligible for bronchoscopy?
✏ 慢性腎臟病會怎麼影響口腔健康？How does chronic kidney disease impact oral health?
✏ 復發性或轉移性子宮頸癌的病人，使用 Tisotumab vedotin 後的抗癌療效是否能持久？Does Tisotumab vedotin show durable antitumor activity in women with previously treated recurrent or metastatic cervical cancer?

因為問的問題比較不是上網一找就會有的，這種狀況再來做比較會比較公允。根據盲測醫師的結果，跟 GPT-4 比較起來，他們的 Medical Chatbot 這次在 Writing Style、Correctness 和 Completeness 都比 GPT-4 好，醫師們表示比較喜歡 John Snow Labs 的答案呈現方式，因為醫療所需要的細節很多，不是單純丟個答案但無法解釋。

人人都渴望真確。事實上，「Accuracy」也是分層次的：

經過嚴謹研究後（Well-Researched）的真實，勝於引經據典以解釋醫學現象（Well-Explained）的真實。
引經據典以解釋醫學現象（Well-Explained）的真實，勝於醫學領域塑造出共識（Medically-Correct）的真實。
醫學領域塑造出共識（Medically-Correct）的真實，勝於白紙黑字如神農嚐百草後紀實（Well-Written）的真實。

Well-Written，去 Google 問：流感的症狀有哪些？LLM 會給你它所找出的答案，但它的資料來源，可能是源自專家學者的說明，也有可能是出自剛得過流感的病人在網路上寫的病後心得。

Medically-Correct，有專業學識背景的醫師，對於前述答案可能不盡滿意，因內容或許只有部分正確、部分有缺陷或不完整，因此醫師要的是他們真的有信心向病人衛教沒有謬誤的訊息。

Well-Explained，除了沒有錯誤，還能夠進一步告訴其他醫療人員或病人，所提供資訊的來源是從哪幾個臨床試驗或文獻中得到的結論與答案。

Well-Researched，和 Well-Explained 類似，並且能確保手上的資料，目前已沒有條件設定更嚴謹的醫學領域研究淬煉出的知識能推翻它。

Healthcare-Specific Solution（如 John Snow Labs 的 Chatbot）比起 General-Purpose（如 OpenAI 的 ChatGPT），就好比專才和通才，各有優缺點。前者所餵養、微調（Fine-Tune）的資料、術語，都是從醫學專有的資料知識庫及詞彙集而來，自然對於理解健康領域的臨床、學術問題及作出回應，有更貼近真實的優勢。個人覺得有點像輝達 Nvidia 的通用型 GPU，和各家巨頭自研晶片 ASIC 的類比，因為巨頭們有自家特殊領域想解決的問題，因此需要量身定做。

John Snow Labs 的 Chatbot 展示一個令我期待的功能：把病人的病歷文件、影像、檢驗、檢查（甚至如基因序列）不限格式丟到 Chatbot，它能回答諸如病人是否使用過及使用過哪些抗生素、並給出參考資料出處的解釋性答案，這不只能滿足病人對於自己就醫歷程的認識，也能幫助疾病分類、學術研究收案族群篩選的進行。

在我使用 ChatGPT 的經驗上，確實在理解與回應一些含有比較專業醫療術語的問題上，它沒辦法處理得很精確，必須把問題拆解成不同的子句，一一分析擊破；但醫師的耐心少、壓力大，很難有醫師在門診會有閒情逸緻對問題抽絲剝繭，通常都只想要一個能快速解決眼前問題的答案。因此，有個訓練資料是乾淨、與時俱進醫療知識庫的模型，就好像身邊隨時有幾十個認真盡責奮發向上對知識有熱愛對品質有要求的住院醫師隨時幫你查資料並總結出最好答案，讓你看病省時省力又能獲得最好的診療效能。

我沒直接用過 John Snow Labs 的 Chatbot，不知道亞洲區域的臨床場域使用他們的產品是不是真的有如神助，自己奮發之餘，也希望世界各地的生醫產業朋朋們，繼續一起為了讓世人更健康的醫療 LLM 開發出更符合醫病多方需求而努力。

— -

📒 Compiled by — Sigrid Chen, Rehabilitation Medicine Resident Physician at Taichung Tzu Chi Hospital, Occupational Therapist, Personal Trainer of the American College of Sports Medicine.

Healthcare GPT Model 準確度基準探討・技術解讀與應用

Written by Sigrid C.