AVISE:AIシステムの脆弱性を自動で見つけるモジュール式オープンソース枠組み
この論文は、AIシステムのセキュリティ評価を自動化するための枠組み「AVISE(AI Vulnerability Identification and Security Evaluation)」を紹介します。著者たちは、特に言語モデルに対する「ジャイルブレイク」(モデルの安全制約を回避して不適切な応答を引き出す入力)を例に、脆弱性を検出する具体的な方法を示しています。AVISEはオープンソースで、研究者や実務者が使える土台を目指しています。
研究チームが作ったAVISEは、Pythonで実装されたモジュール式のシステムです。大きく「オーケストレーション層」と「インタラクション層」に分かれており、ブラックボックス(内部非公開)、グレーボックス、一部ホワイトボックス(内部可視)のテストを組めます。言語モデルの出力は確率的で変動するため、同じテストを何回実行するかを利用者が設定でき、複数回の結果を統計的に集約して評価する設計になっています。これにより、1回だけの試行で誤った結論を出すリスクを減らせます。
枠組みのデモとして、著者らは既存の多ターン攻撃「Red Queen」を拡張して、Adversarial Language Model(敵対的言語モデル、ALM)を組み合わせた攻撃を作りました。さらに、自動化されたSecurity Evaluation Test(安全性評価テスト、SET)を開発し、25のテストケースと、各ケースがターゲットモデルを“ジャイルブレイク”できたかを判定するEvaluation Language Model(評価用言語モデル、ELM)を用意しました。ELMの判定は論文内で92%の精度、F1スコア0.91、Matthews相関係数0.83を示しました。SETを使って最近公開された9つの言語モデルを評価したところ、全てが拡張攻撃に対して何らかの脆弱性を示しましたが、その程度はモデルによって異なりました。
この仕事が重要な理由は二つあります。第一に、AIの実用化が進む中で、問題を見つけて直す前に模擬攻撃(レッドチーミング)で弱点を洗い出すことが法規制や安全運用で求められる場面が増えています。AVISEは自動化と再現性を重視しており、研究者や現場での定期的な評価に組み込みやすい設計を目指しています。第二に、既存の多くのツールは単発の試行を前提にしているか、言語モデルの評価に特化していないため、本研究は「複数回の試行を統計的に扱う」「言語モデル同士で判定を自動化する」といった点でギャップに応えようとしています。
ただし重要な注意点もあります。今回の実装と実験は言語モデルのジャイルブレイク検出に焦点を当てたものであり、画像や音声など他の種類のAIシステムに対する評価は別途の設計が必要です。計算資源の制約もあり、精度を上げるには同じテストを何度も回す必要があるためコストがかかります。さらに、論文の抜粋では評価対象となった9モデルの具体的な名前や設定は示されていません。したがって「すべての言語モデルが危険だ」と結論づけるのではなく、AVISEが自動化されたテストを通じて脆弱性を体系的に発見できることを示す初歩的な一歩と理解するのが適切です。