AI Booster - MosaicML (4)

BioMedLM: a Domain-Specific Large Language Model for Biomedical Text

Image credit: MosaicML

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片,期許自己能更了解這世界上正在發生什麼。

上篇筆者介紹了MosaicML Platform提供的服務,本篇來介紹實際的應用,Stanford大學的CRFM如何與MosaicML合作訓練專為生物醫學領域的大型語言模型BioMedLM (原名PubMed GPT)。

BioMedLM是怎麼被訓練出來的?

BioMedLM是基於HuggingFace 的 GPT 模型,模型使用27億個參數,訓練資料是Pile內關於生命科學和生物醫學(PubMed)的部分,包含500億個Tokens、1600萬則摘要和5百萬篇文章。

MosaicML使用MosaicML Platform的優化配置,包括128顆NVIDIA 的 A100 GPU、FSDP集成(PyTorch backend for fully sharded data parallel training)、 MosaicML用於串流資料的函式庫StreamingDataset,耗時6-7天訓練完成,總訓練成本約莫$38000美金。

BioMedLM的表現怎麼樣?

與其他著名的大型模型相比,BioMedLM (原名PubMed GPT)於幾項測試皆位於前段,並在其中一項指標MedQA-USMLE展現出最佳的回答正確率。

Image credit: MosaicML

幾個結論

根據上述大型模型表現的測試結果,MosaicML 證實針對這種特定領域的大型模型,預訓練資料若是使用與領域相關(domain-specific)的資料會比使用綜合(general-purpos)的資料表現更好。以GPT-Neo 2.7B為例,有著與BioMedLM相當的訓練參數規模,GPT-Neo 2.7B的訓練資料也是Pile但並非生命科學和生物醫學等特定領域,這意味著訓練資料可能包含著一些來自像是HackerNews或Reddit等可靠度較低的資料來源。使用特定領域的資料,儘管訓練資料較小(約占17.5%),但在結果上表現得更精準,訓練成本也能壓得更低。

Thank you!

--

--