AI Booster - MosaicML (4)

DigNo Ape 數遊原人

Published in

IMU Framework Design

Apr 13, 2023

BioMedLM: a Domain-Specific Large Language Model for Biomedical Text

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片，期許自己能更了解這世界上正在發生什麼。

上篇筆者介紹了MosaicML Platform提供的服務，本篇來介紹實際的應用，Stanford大學的CRFM如何與MosaicML合作訓練專為生物醫學領域的大型語言模型BioMedLM (原名PubMed GPT)。

BioMedLM是怎麼被訓練出來的?

BioMedLM是基於HuggingFace 的 GPT 模型，模型使用27億個參數，訓練資料是Pile內關於生命科學和生物醫學(PubMed)的部分，包含500億個Tokens、1600萬則摘要和5百萬篇文章。

MosaicML使用MosaicML Platform的優化配置，包括128顆NVIDIA 的 A100 GPU、FSDP集成(PyTorch backend for fully sharded data parallel training)、 MosaicML用於串流資料的函式庫StreamingDataset，耗時6-7天訓練完成，總訓練成本約莫$38000美金。

BioMedLM的表現怎麼樣?

與其他著名的大型模型相比，BioMedLM (原名PubMed GPT)於幾項測試皆位於前段，並在其中一項指標MedQA-USMLE展現出最佳的回答正確率。

幾個結論

根據上述大型模型表現的測試結果，MosaicML 證實針對這種特定領域的大型模型，預訓練資料若是使用與領域相關(domain-specific)的資料會比使用綜合(general-purpos)的資料表現更好。以GPT-Neo 2.7B為例，有著與BioMedLM相當的訓練參數規模，GPT-Neo 2.7B的訓練資料也是Pile但並非生命科學和生物醫學等特定領域，這意味著訓練資料可能包含著一些來自像是HackerNews或Reddit等可靠度較低的資料來源。使用特定領域的資料，儘管訓練資料較小(約占17.5%)，但在結果上表現得更精準，訓練成本也能壓得更低。

Thank you!

AI Booster - MosaicML (4)

Written by DigNo Ape 數遊原人