医学教育研究者・総合診療医のブログ

医学教育、総合診療について気ままに綴ります。

ChatGPT in medical school: how successful is AI in progress testing? (Med Educ Online 2023)

Friederichs H, Friederichs WJ, März M. ChatGPT in medical school: how successful is AI in progress testing? Med Educ Online. 2023;28:2220920.

背景:ChatGPTは、生成型人工知能(AI)として、医学分野の事実知識を含む幅広い情報へのアクセスを容易にする。知識の習得が医師のパフォーマンスの基本的な決定要因であることを考えると、異なるレベルの医学知識を教え、テストすることは、メディカルスクールの中心的な課題である。ChatGPTの回答の事実知識レベルを測定するために、ChatGPTの成績と医学生の進級テストの成績を比較した。

方法:ドイツ語圏のプログレステストの多肢選択問題(MCQ)計400問をChatGPTのユーザーインターフェースに入力し、問題の正答率を求めた。ChatGPTの回答の正答率と行動との相関を、回答時間、単語数、プログレステスト問題の難易度などの観点から算出した。

結果:評価した395の回答のうち、ChatGPTが回答したプログレステスト問題の正答率は65.5%であった。ChatGPTは平均して、36.2 (SD 28.1)語を含む完全な回答に22.8秒 (SD 17.5)を要した。使用時間や単語数とChatGPTの回答の正確さとの間には相関がなかった(時間の相関係数 rho = -0.08, 95% CI [-0.18, 0.02], t(393) = -1.55, p = 0.121; 語数の相関係数 rho = -0.03, 95% CI [-0.13, 0.07], t(393) = -0.54, p = 0.592 ).MCQの難易度指数とChatGPTの回答精度の間には有意な相関があった(難易度の相関係数:rho = 0.16, 95% CI [0.06, 0.25], t(393) = 3.19, p = 0.002).

結論:ChatGPTは、Progress Test Medicineのドイツ国家資格試験レベルのMCQの3分の2を正解することができ、1~3年目のほぼすべての医学生を上回った。ChatGPTの解答は、医学生の後期の成績と比較することができる。