コンピュータビジョン日本語公開済み

HaloProbe：視覚言語モデルの「ない物の説明」を確率的に見つけてやわらげる手法

2026年4月8日arXiv: 2604.06165v1

大きな視覚言語モデルは、画像にない物を「いる」と書いてしまうことがあります。そうした誤り（オブジェクト・ハルシネーション）を見つけて減らすために、本論文はHaloProbeという新しいベイズ的（確率的）な検出・緩和枠組みを提案します。HaloProbeは、モデル内部の信号と生成された説明文の統計情報を分けて扱い、各語（トークン）が誤っている確率を推定します。

研究者らはまず、これまでよく使われてきた「画像への注意（attention）重み」を使った検出が必ずしも信頼できないことを示しました。注意の粗い平均値を取ると、語の位置（文中で何番目に出てくるか）や同じ物の繰り返しといった隠れた要因が混ざり合い、統計の集約の仕方によって傾向が逆転する、いわゆるシンプソンのパラドックスが発生します。これに対してHaloProbeは、レイヤーやヘッドごとの細かい注意やロジット（モデルの内部信頼度）と、語の位置や出現回数といった外的特徴を別々に扱います。

具体的にはHaloProbeは二つの要素を学習します。内部特徴を切り離して安定して学習するためのバランス学習器と、外的特徴に基づく事前確率を学ぶ推定器です。最終的にベイズの考え方で両者を組み合わせ、トークンごとのハルシネーション確率（事後確率）を出します。重要な点は、HaloProbeをモデル内部に介入して変更する代わりに、外部のスコアとして使い、ビームサーチによる候補の再評価や後処理で非侵襲的に緩和を行うことです。

著者らの実験はMSCOCOデータセット上で行われ、CHAIRというハルシネーション評価指標を使って比較しています。結果として、注意の内部パラメータを書き換える介入型手法よりも、HaloProbeでスコア付けして再選択するほうがハルシネーションを減らしつつ文の自然さ（流暢さ）を保てると報告しています。これは、モデルの通常の生成分布の中に自然な正答が含まれており、正しくスコアリングすれば内部を改変せずに正しい応答を選べることを示しています。

留意点として、本稿はプレプリントの抜粋に基づく報告であり、ここで示したのは主に開放型キャプション生成の実験結果です。数値的な改善幅や他のデータセット、他種の視覚言語タスクへの一般化については抜粋中に詳細がないため断言できません。また、HaloProbeが扱う外的特徴（語の位置や繰り返し）がすべての混乱要因を覆うわけではない可能性があります。介入型の方法には別の利点や限界もあり、実際の用途では手法選択のトレードオフを考慮する必要があります。