医療分野におけるChatGPT、LLM、生成AIに関する勉強会の詳細紹介_前編

Hiroaki Kakizaki
MICIN Developers
Published in
Jul 20, 2023

本記事では京大病院放射線診断科火曜カンファで利用した登壇資料をベースにして、AIやデータプロダクトを専門とするプロダクトマネージャーからみた医療分野におけるChatGPTやLLM(大規模言語モデル)、生成AIの利活用の現状や限界などを説明させていただければと思います。

関連記事;京大病院放射線診断科火曜カンファにてChatGPT、LLM、生成AIに関する勉強会を開催させていただきました。

自己紹介

硴﨑裕晃(Kakizaki Hiroaki)

株式会社MICIN データソリューション部 プロダクトマネージャー

Megagon Labs(Recruit Holdings Co.,Ltd.がシリコンバレーと東京に保有する AI 研究所)などを経てMICINに参画。自然言語処理、画像認識、信号処理、マルチモーダル、医療AI(SaMD)、データマネジメントプラットフォーム等様々なAI関連プロダクトのプロダクトマネジメントをこれまでに担当した。

本記事の概要

本記事では勉強会の前半パートとして「AIに関する主な用語」「ChatGPTが医師国家試験に合格した論文のご紹介」「ChatGPTの主に想定される用途」についてご説明させていただきます。

勉強会の詳細①については以下の記事をご覧ください。

関連記事;京大病院放射線診断科火曜カンファにてChatGPT、LLM、生成AIに関する勉強会を開催させていただきました。

勉強会の詳細②;ChatGPTが医師国家試験に合格した論文のご紹介

こちらのパートでは論文サマリーと、細かなTipsや臨床応用の際に気をつけることについてご紹介させていただきました。

(※論文の詳細にご関心がある方はぜひリンク先から論文をご参照ください。Performance of Generative Pretrained Transformer on the National Medical Licensing Examination in Japan. medRxiv preprint doi: https://doi.org/10.1101/2023.04.17.23288603 ; this version posted April 24, 2023.)

細かなTipsとしては以下をご紹介させていただきました。

なぜ第117回目の国試を対象としたのか?

  • 国試の回答がChatGPTの学習データセットに存在しない試験で評価を実施したかったことから、本研究では2023年2月に実施された第117回医師国家試験を対象にしました。
  • ChatGPTなどのLLMは基本的に確率分布モデルに該当するため確率が高い回答を出力します。しかしLLMの学習データセットに回答が含まれていた場合、LLMが出力してきた結果が本当に確率分布モデルとしての出力なのか、あるいはある意味でのカンニングのようなものなのかを判断することが難しくなります。
  • 今回の研究では可能な限りその影響を排除するために117回目の国試を対象として評価を実施しています。

研究で作成したプロンプトの詳細について

  • 具体的なプロンプトは論文にて公開しています。
  • 今回の研究で作成したプロンプトは「Summarizing」「Inferring」「Transforming」「Expanding」というChatGPTの4つの基本機能(後述します)を組み合わせて利用することで正答率を改善しました。

最後に臨床応用の際に気をつけることとして、前提としてChatGPTなどのLLMは発展途上の技術であり(日々技術がすごい勢いで向上しているのは事実ですが)正確性が求められる用途(診断、治療など)に用いるのは2023年6月の現時点では時期尚早であり、特に医療分野においては慎重な検証が求められているということをご説明させていただきました。

その他関連するニュースやブログなどをご紹介させていただきました。

勉強会の詳細③;ChatGPTの主に想定される用途

このパートではDeepLearning.AIにて提供されている ChatGPT Prompt Engineering for Developers を参考にさせていたただきながら、ChatGPTの具体的な機能について説明させていただきました。

こちらのコースはOpenAIのエンジニア、及びAI界隈のスーパースター Andrew Ng 先生がオンライン講座形式で実際のプロンプトエンジニアリングを紹介してくれる非常にわかりやすい教材となっています。(2023年6月12日現在ではLearn for Freeとなっていますので、ご関心がある方はぜひご覧になってください。)

こちらのコースでは「Summarizing」「Inferring」「Transforming」「Expanding」というChatGPTの4つの基本機能が紹介されています。各機能の紹介は本ブログでは割愛させていただきますが、実務者(プロダクトマネージャー)から見たときに大事なポイントは、これらの基本機能紹介において「検索」が含まれていない点にあると考えています。

あくまで個人的な理解になりますが、100%の正確性が求められるいわゆる古典的な「検索」と呼ばれる技術群と、統計を技術的な背景にもつ「大規模言語モデル」とはそもそも異なる技術領域にあると認識しています。(もちろんGoogle社のBERTなどから検索と大規模言語モデルは切っても切れない関係にありますが、本ブログでは趣旨からずれてしまうので詳細は割愛させていただきます。参照;Understanding searches better than ever before

このあたりの技術的なバックグラウンドの違いや制約条件などを踏まえた上で、ChatGPTなどのLLMは適切な用途で、適切な使い方をする必要があるということを臨床現場の先生方にご説明させていただきました。

後半へ続く

勉強会詳細の後半は以下のリンク先に掲載させていただきますので、ご関心ある方はご確認をお願いいたします。

後半URL; 医療分野におけるChatGPT、LLM、生成AIに関する勉強会の詳細紹介_後編

前の記事;京大病院放射線診断科火曜カンファにてChatGPT、LLM、生成AIに関する勉強会を開催させていただきました。

備考;本ブログ、研究内容、勉強会に関してご相談事項などがある方は以下からご連絡ください。

https://micin.jp/contact

--

--