AVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク
この論文は、AIシステムの安全性を体系的に評価するためのフレームワーク「AVISE(AI Vulnerability Identification and Security Evaluation)」を提案します。AVISEはモジュール式でオープンソースです。研究者や実務者がAIモデルやシステムの脆弱性を自動で見つけるための基盤を提供することを目指しています。
著者らは実証として、既存の「Red Queen(レッドクイーン)」と呼ばれる多ターン攻撃を拡張し、Adversarial Language Model(ALM、敵対的言語モデル)を組み込んだ攻撃に発展させました。さらに、言語モデルの「脱獄(jailbreak)」脆弱性を発見する自動化されたSecurity Evaluation Test(SET、セキュリティ評価テスト)を作成しました。このSETは25件のテストケースで構成され、各ケースが対象モデルを脱獄させたかどうかを判断するEvaluation Language Model(ELM、評価用言語モデル)を用います。ELMの判定は論文の結果で92%の精度、F1スコア0.91、Matthews相関係数0.83を示しました。
AVISEはPythonで設計され、オーケストレーション層とインタラクション層を持つモジュール構造です。フレームワークはブラックボックス(内部不明)攻撃だけでなく、ホワイトボックス(内部アクセスあり)やグレイボックス(部分的アクセスあり)評価にも対応できるように設計されていると述べられています。重要な点として、言語モデルは確率的で出力がばらつくため、単発のテストだけでは不十分です。AVISEは同じ条件で複数回のテストを実行し、統計的に結果を集約して評価する仕組みを提供します。ただし、繰り返し実行には計算資源が必要なため、実行回数は利用者が選べるようになっています。
この研究が重要な理由は、AIの実運用が進む中で脆弱性の検出と再現性のある評価方法が求められている点です。AVISEは自動化されたSETを作り、効果的なレッドチーミング(模擬攻撃)を継続的に実行できる土台を与えます。論文では、9つの最近公開された異なるサイズの言語モデルをSETで評価し、いずれのモデルも拡張されたRed Queen攻撃に対して何らかの脆弱性を示したと報告しています。
ただし重要な注意点もあります。提示された実証は主に言語モデルの脱獄検出に焦点を当てています。SETは25件のテストケースに基づくため、網羅性や実世界でのすべての攻撃をカバーするかは限定的です。評価対象となった「9つのモデル」についての詳細や環境設定は抜粋部分に限られており、ここで示した結果がどの程度一般化できるかは追加検証が必要です。論文自身も、既存ツールの欠点として単発の評価に頼る危険性や、言語モデルと人間の両方を評価に組み込む必要性を指摘しています。
総じて、AVISEはAIセキュリティ評価をより体系化し自動化するための一歩です。オープンで拡張可能な設計は、将来のモデルや攻撃手法に合わせたSETの開発を容易にします。一方で、このフレームワークとその最初の評価結果の適用範囲や限界を理解した上で、さらに多様なテストと第三者による検証が望まれます。