医学教育研究者・総合診療医のブログ

医学教育、総合診療について気ままに綴ります。

ChatGPT-4: An assessment of an upgraded artificial intelligence chatbot in the United States Medical Licensing Examination (Med Teach 2023)

Mihalache A, Huang RS, Popovic MM, Muni RH. ChatGPT-4: An assessment of an upgraded artificial intelligence chatbot in the United States Medical Licensing Examination. Med Teach. 2023 Oct 15:1-7. Epub ahead of print.

背景:ChatGPT-4は人工知能チャットボットのアップグレード版である。米国医師免許試験(USMLE)におけるChatGPT-4の性能は、独自に評価されていない。我々は、USMLEステップ1、ステップ2CK、ステップ3の練習問題に対するChatGPT-4のパフォーマンスを評価することを目的とした。

方法:USMLEステップ1、ステップ2CK、ステップ3の選択式練習問題をまとめた。利用可能な376問のうち、319問(85%)が2023年3月21日にChatGPT-4で分析された。主要アウトカムは、USMLEステップ1、ステップ2CK、ステップ3の練習問題におけるChatGPT-4のパフォーマンスで、多肢選択問題の正答率として測定された。副次的アウトカムは、ChatGPT-4が提供した質問と回答の平均の長さであった。

結果:ChatGPT-4は、USMLE模擬試験教材のテキストベースの多肢選択問題319問に回答した。ChatGPT-4は、USMLEステップ1では93問中82問(88%)、ステップ2CKでは106問中91問(86%)、ステップ3では120問中108問(90%)に正解した。ChatGPT-4はすべての問題に解説をつけた。ChatGPT-4は、USMLEステップ1の練習問題に平均30.8 ± 11.8秒、ステップ2CKの練習問題に平均23.0 ± 9.4秒、ステップ3の練習問題に平均23.1 ± 8.3秒を費やした。ChatGPT-4で正解したUSMLE多肢選択式練習問題と不正解したUSMLE多肢選択式練習問題の平均の長さはほぼ同じであった(差 = 17.48文字、SE = 59.75、95%CI = [-100.09,135.04]、t = 0.29、p = 0.77)。練習問題に対するChatGPT-4の正解の平均長さは、不正解の平均長さよりも有意に短かった(差 = 79.58文字, SE = 35.42, 95%CI = [9.89,149.28], t = 2.25, p = 0.03)。

結論:ChatGPT-4はUSMLE試験の練習問題で非常に高い正答率を示した。ChatGPT-4は、同じAIチャットボットの以前のモデルよりも、USMLEの練習問題で大幅に優れた成績を収めた。