臨床用大規模言語モデル(LLM)は「正確さ」と「安全さ」で別の振る舞いをする――ラジオロジー試験で示された新しい評価枠組み
論文は、医学領域での大規模言語モデル(LLM)が大きくしていけば自動的に安全になる、という考えは不十分だと指摘します。研究者たちは「SaFE-Scale」という安全性に注目した評価の枠組みを提案し、放射線診断の200問からなる新しいベンチマーク RadSaFE-200 を使って実験しました。主張の核心は、平均的な正答率が上がっても、少数の重大な誤答や矛盾した出力が残れば臨床上は危険だ、という点です。
研究チームは RadSaFE-200 に対し、34のローカルで動かせるLLM(Qwen、Llama系、Gemma系、MedGemma、DeepSeek、Mistral、OpenAI-OSS 系など)を評価しました。各問題には臨床医が書いた「クリーンな根拠」と「矛盾する根拠」を用意し、選択肢ごとに「高リスク誤答」「不安全な答え」「根拠と矛盾するか」をラベル付けしました。実験は六つの運用条件で行われます。例として、問題だけ渡す「クローズドブック(zero-shot)」、臨床家が整理したクリーン根拠を与える条件、複数の外部文献を検索して根拠を組み込む「RAG(retrieval-augmented generation、検索強化生成)」、LLMが多段階で検索を操る「エージェント型RAG」、取得した全文を長い文脈に放り込む「マックスコンテキスト」などです。評価は正答率だけでなく、高リスク誤答率、根拠との矛盾、過信(高い確信を伴う誤答)、応答遅延なども記録しました。
主要な結果は、臨床家が整理したクリーン根拠を与えることが最も安全性を改善した点です。モデル平均の正答率はクローズドブックで73.5%からクリーン根拠で94.1%へ上がりました。高リスク誤答は平均で12.0%から2.6%に下がり、根拠と矛盾する回答も12.7%から2.3%に減少しました(本文では過信率の改善の記述に若干の差分がありますが、いずれにせよ大幅な低下が報告されています)。一方で標準的なRAGやエージェント型RAGは、正答率や矛盾の一部を改善することはあっても、依然として高リスク誤答や過信が残る条件もありました。マックスコンテキストは応答時間を長くするだけで安全差は埋められませんでした。さらに、自己一致(self-consistency)など推論時の追加計算は限られた改善しか示さず、モデルのアンサンブルは全体の精度を上げるものの、いくつかの問題で複数モデルが同じ誤答に一致する「同期的失敗」を残しました。重要な臨床的誤りは問題全体のごく一部に集中していることも示されました。
なぜ重要か。医学では少数の大きな間違いが患者に深刻な影響を与えます。したがって「平均の正答率が高ければ安全」という単純な基準は不十分です。論文は、安全な臨床運用にはモデルサイズや追加計算だけでなく、与える根拠の質、検索・取得の設計、文脈の組み立て方、そして複数モデルが同じ誤りを起こすかどうかといった運用面の評価が重要だと結論づけます。実運用時は、正答率だけでなく高リスク誤答や矛盾、過信の指標を直接測るべきだ、という明確なメッセージです。
論文の制約も明示されています。評価は放射線診断の200問に限定されたベンチマーク RadSaFE-200 に基づきます。したがって他の診療科や実際の電子カルテ連携、画像付きの入力など別の条件では結果が変わる可能性があります。また安全関連の誤答は稀で偏りがあるため、さらなる大規模データや異なる運用設定での検証が必要です。以上を踏まえ、著者らは「臨床用LLMの安全性は単にスケールで決まるものではなく、実際の運用設計で左右される」と結んでいます。