ツール実行の「領収書」でAIの幻覚を検出する方法——NabaOSが示す低遅延の実用案
この論文は、外部ツールを呼び出すAIエージェントが出す「幻覚」的な主張を、軽量な検証で現実的に見抜く仕組みを示します。研究者らはNabaOSという枠組みを提案しました。NabaOSは、各ツール呼び出しに対してHMAC(ハッシュベースのメッセージ認証コード)で署名した実行領収書を発
この論文は、外部ツールを呼び出すAIエージェントが出す「幻覚」的な主張を、軽量な検証で現実的に見抜く仕組みを示します。研究者らはNabaOSという枠組みを提案しました。NabaOSは、各ツール呼び出しに対してHMAC(ハッシュベースのメッセージ認証コード)で署名した実行領収書を発行し、言語モデル(LLM:大規模言語モデル)の応答内の主張を領収書と照合してリアルタイムで不整合を検出します。処理の遅延は1応答あたり15ミリ秒未満です。
研究チームはまた、古代インドの認識論であるニヤーヤ(Nyāya)の概念を借りて、LLMの各主張を出所の種類(プラマーナ)で分類しました。分類項目には、直接のツール出力(pratyakṣa)、ツール出力からの推論(anumāna)、外部情報源からの引用(śabda)、何も見つからなかったとする不在の主張(abhāva)、証拠のない意見などがあります。NabaOSはこれらの区分に応じて検証方法を変えます。深い代理実行(複数ステップのウェブ操作)では、URLの独立再取得や計算のリプレイで追加チェックを行います。評価用に新たなベンチマークNyayaVerifyBenchも作成し、4言語、1,800ケース、6種類の幻覚を注入して試験しました。
実験結果は具体的です。NabaOSは偽のツール参照(ツールを呼んでいないのに呼んだとする主張)を94.2%検出し、出力数の誤報を87.6%検出し、不在の虚偽申告を91.3%検出しました。深い代理実行におけるURLの捏造は、独立再取得によって78.4%捕捉できました。検証オーバーヘッドは15ミリ秒未満です。同分野の暗号的手法であるゼロ知識証明(ZK:zero-knowledge proof)は理論的に強い保証を与えますが、1件あたり数分(論文中では約180秒=180,000ミリ秒と比較)かかり、対話的エージェントには現実的でないと論文は指摘します。なお、NabaOSの「FullyVerified(完全検証)」ラベル付き応答は98.7%の確率で正しいと報告されています。
なぜこれが重要か。対話型の個人用エージェントでは応答性が重視されます。長時間待つ検証法は使えません。領収書ベースの検証は少ない遅延で実行でき、どの主張が「直接ツール出力に基づくのか」「推論なのか」「外部出典なのか」を示すことで、利用者に二値の合否ではない実用的な信頼情報を与えます。さらに、計算の正当性(その手続きが本当に実行されたか)を証明する暗号的手法と組み合わせれば、計算的整合性と事実的根拠の双方を目指すことも可能です。
重要な注意点と限界も明記されています。HMAC領収書はツールの呼び出しとその返り値が発生した証拠を与えますが、その出力が事実として正しいかどうか(ツールが誤情報を返した場合など)までは保証しません。śabda(外部出典)に対する検証は、その情報源自体の信頼性に依存します。分類上「証拠なし」とされた主張は自動的には検証できず、検出率は100%ではありません。また、評価は注入された幻覚を使ったベンチマークに基づくため、現実の振る舞い全体を完全に代表するとは限りません。論文は、対話的エージェント向けには領収書ベースの現実的なトレードオフが有用だが、万能の解ではないと強調しています。