LiveMedBench:汚染対策と自動ルーブリック評価を備えた医療用ベンチマーク
この論文は、大規模言語モデル(LLM)を医療現場で安全に使うための評価基準を作る話です。既存の医療ベンチマークは静的で、テストデータが学習データに混入してしまう「データ汚染」や、医療知識の変化に追いつけない「時間的ずれ」の問題がありました。著者らはこれらを減らすために、週次で更新する「LiveMedBench」を作りました。目的は、より現実に即した、公平なLLM評価を提供することです。コードとデータはLiveMedBenchとして公開されています。
研究チームは、オンラインの医療コミュニティから毎週実際の臨床ケースを収集しました。収集先はiCliniq、Student Doctor Network(SDN)、DXY、Medliveの4つです。データは2023年1月1日以降に投稿されたものに限定し、英語か中国語のテキストのみを残しました。画像や動画が必要なスレッドは除外されています。さらにICDやICFといった診療コードのキーワードや、少なくとも一つの認証医師の回答があることを要件としています。
生データを臨床的に信頼できる問題に変えるために、著者らは「マルチエージェント臨床キュレーションフレームワーク」を導入しました。これはScreener(入力をSOAPという臨床記録の形式に整える)、Validator、Controllerという複数の役割で構成されます。検証にはRetrieval-Augmented Generation(RAG、外部の信頼できる証拠を検索してモデル出力を補う技術)を用い、提示された事実をガイドラインや証拠と照合します。評価側では「自動ルーブリック評価フレームワーク」を使い、医師の回答をケースごとの具体的な採点基準に分解しました。結果として、データベースは2,756件の実ケース、38の専門領域、16,702の個別評価基準を含みます。
このベンチマークで38種類のLLMを評価したところ、最良のモデルでも39.2%のスコアにとどまりました。さらに、84%のモデルが「知識カットオフ(学習停止日)後に投稿されたケース」で性能低下を示しました。これは多くのモデルが過去の公開情報に依存しており、汚染や時間的ずれの影響を受けやすいことを示唆します。エラー解析では、事実知識の欠如ではなく「患者ごとの制約に合わせて知識を適用する力」が主要な失敗要因であると報告され、全エラーの35–48%がこの型の問題に当たります。なお、外部知識を取り込む手法(retrieval-based knowledge injection)は、この性能低下の多くを回復しました。
重要な前提と限界も示されています。収集元は検証済み医師が多いコミュニティに限られており、言語は英語と中国語が中心です。画像や動画が必要な臨床情報は除外しているため、マルチモーダルな診療場面は含まれません。また、自動ルーブリックは専門家との整合性が高いと報告されますが、完全に人間の専門家評価を置き換えるものではありません。著者らは週次更新と厳格な照合で汚染と時間的ずれを軽減しようとしていますが、評価から得られたモデルの低い性能は、まだ臨床適用には注意が必要であることを示しています。