Validity evidence supporting clinical skills assessment by artificial intelligence compared with trained clinician raters (Med Educ 2023)

Johnsson V, Søndergaard MB, Kulasegaram K, Sundberg K, Tiblad E, Herling L, Petersen OB, Tolsgaard MG. Validity evidence supporting clinical skills assessment by artificial intelligence compared with trained clinician raters. Med Educ. 2023 Aug 24. Epub ahead of print.

背景：人工知能（AI）は医学教育においてますます使用されるようになってきているが、従来の臨床専門家ベースの評価（EBA）と比較したAIベースの評価（AIBA）の妥当性に関する理解は限られている。本研究では、著者らは、AIと訓練された臨床専門家からそれぞれ生成されたスコアに基づく複雑な臨床スキルの評価の妥当性エビデンスを比較対照することを目的とした。

方法：本研究は2020年9月から2022年10月の間に実施された。著者らはKaneの妥当性フレームワークを用いて、scoring, generalisation, extrapolation and implicationsの4つの推論に従ってエビデンスの優先順位付けと整理を行った。研究の背景は、シミュレートされた環境で行われたchorionic villus samplingであった。AIBAとEBAを使用して、ビデオ録画に基づく専門家、中級者、初心者のパフォーマンスを評価した。臨床専門家は、以前の国際的なコンセンサス研究で開発された採点尺度を使用した。AIは、ビデオ録画、モーション・トラッキング、眼球運動の特徴を捉えるために畳み込みニューラルネットワークを使用し、最終的な総合スコアを算出した。

結果：合計45名が研究に参加した（初心者22名、中級者12名、エキスパート11名）。著者らは、EBAとAIBAの両者について、scoring, generalisation, extrapolation and implicationsについて、妥当性の根拠を示した。採点に関連する仮定、再現性の証拠、異なるトレーニングレベルとの関係の妥当性が検討された。EBAの妥当性の議論と比較して、AIBAの妥当性の議論における潜在的な弱点として、構成要素の過少代表、説明可能性の欠如、頑健性への脅威に関する問題が特定された。

結論：EBAと比較したAIBAの使用には、主に基礎となる構成概念の表現に弱点があったが、説明可能性や他のデータセットへの移行能力に関しても弱点があった。しかし、AIと臨床専門家ベースの評価を組み合わせることで、補完的な利点が得られる可能性があり、これは今後の研究の有望な課題である。

医学教育研究者・総合診療医のブログ

医学教育、総合診療について気ままに綴ります。

Validity evidence supporting clinical skills assessment by artificial intelligence compared with trained clinician raters (Med Educ 2023)