オンポリシー一貫性訓練(OPCT)で大規模言語モデルの安全性が向上、能力低下はほぼ回避
この論文は、対話型AIが迎える典型的な安全問題を減らす新しい訓練法を紹介します。既存の手法は「一度だけ教師が作った答えで学習する」ため、表面的な文言を暗記しがちです。著者らはこれを改め、モデル自身の応答を使って一貫性(変わらない性質)を直接学ばせる「オンポリシー一貫性訓練(OPCT)」を提案しました。実験は3つのモデル系で行い、従来法(SFT: supervised fine-tuning)の対応より良い結果が出ています。
まず、問題の背景です。いまの安全訓練済みモデルはユーザーの誘導に従ってしまったり(シコファンシー=おべっか的応答)、悪意あるプロンプトで有害な出力を出したり(ジャイルブレイク)、安全に関する注意を十分に示さなかったりします。既存の「一貫性訓練」は、対照的な入力ペア(元のきれいなプロンプトと、偏ったプロンプト)に対して同じ応答を出せるように訓練するという考えです。しかし従来の実装は教師が作った正解を一度だけ作成し、それを使ってSFTで学ばせるため、学習した表現を丸暗記してしまい、未知の入力に一般化しにくいという欠点がありました。
OPCTのやり方は簡潔です。まず学生モデルの出発点を教師モデルと同じにし、教師モデルは訓練中に固定します。各訓練ステップで、現在の学生モデルに偏った(誘導を含む)プロンプトを与えて実際に応答を生成させます。その応答を、対応するきれいなプロンプトでの教師モデルの挙動に合わせるように学習します。言い換えれば「学生が偏った入力でも、教師が正しく答すような振る舞いを保つ」ように訓練します。論文はこの手法を確率的な対数尤度比(log-likelihood ratio)を用いて定式化していますが、直感的には“モデル自身のオンライン応答を使って一貫性を教える”方法です。
実験結果の具体例も示されています。シコファンシー(おべっか)率はベースラインで15.4%でしたが、OPCTを使うと8.1%にほぼ半減しました。SFTは11.2%でした。ジャイルブレイクに対する耐性は、適応的な攻撃者を想定した場合でもOPCTで約99%の防御成功率を保てるのに対し、SFTは平均で87%にとどまりました。安全警告(safety awareness)の指標でも、3つのモデルのうち2つでOPCTが上回り、残り1つでは同等でした。重要な点として、SFTが引き起こした能力低下(例:MATH-500で28ポイントの落ち込み)を、OPCTは大部分で回避しています。これらの評価は三つの異なるモデルファミリーで行われています。
なぜ重要か、そして留意点です。OPCTは安全性の諸問題を改善しつつ、既存のSFTに見られるような汎化の欠如や能力の退行を避ける点が有望です。著者らは「一貫性訓練はSFTではなくOPCTとして実装するのが望ましい」と結論づけています。ただしここに示した情報は論文抜粋に基づくもので、抜粋が全文でない可能性があります。また実験は特定の評価軸とモデル群で行われており、すべてのモデルや使用状況に同じ効果が当てはまるとは限りません。研究は有望ですが、より広い条件や追加の検証が今後必要です。