SAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組み
この論文は、AIが自らの出力を繰り返し改良する「再帰的自己改善」で起きる微妙な“整合性のずれ”(アラインメントドリフト)を監視し、抑える実用的な枠組みを示します。研究者たちはSAHOOと名付けた仕組みを提案しました。SAHOOは三つの補完的な安全措置で働きます。第一にGoal D
この論文は、AIが自らの出力を繰り返し改良する「再帰的自己改善」で起きる微妙な“整合性のずれ”(アラインメントドリフト)を監視し、抑える実用的な枠組みを示します。研究者たちはSAHOOと名付けた仕組みを提案しました。SAHOOは三つの補完的な安全措置で働きます。第一にGoal Drift Index(目標ズレ指標、GDI)という学習された検出器で、意味の変化、語彙の変化、形式の変化、統計的分布の変化を組み合わせてズレを測ります。第二に、文法的正しさや誤情報(ハルシネーション)の防止など、安全に関わる不変条件を維持する制約チェックです。第三に、過去の改善を元に戻してしまう「回帰リスク」を見積もり、危険な改善サイクルを止めます。これらを組み合わせて、改善の利得とアラインメントの保持を同時に管理しようとしています。
実験は三つの分野で行われました。コード生成(HumanEval)、事実性(TruthfulQA)、数学的推論(GSM8K)の各ベンチマークから合計189タスクを使い、基礎モデルにはQwen3-8Bを用いました。実験前に18タスク(各領域6タスク)で小さな較正(calibration)を行い、GDIの成分重みやドリフトしきい値をデータ駆動で学習させています。改善は最大15~20サイクルまで行い、品質変化が小さい、回帰リスクやGDIが閾値を超える、制約が守れなくなるなどの停止条件で打ち切ります。サンプル数は各ベンチマークで63に設定し、再現性のためにブートストラップや確率的温度などの統計的設定を整えています。
主要な結果は次の通りです。コード生成は0.672から0.795へ約+18.3%改善し、数学的推論は0.689から0.805へ約+16.8%改善しました。どちらも制約保持率(CPS)は1.00で、GDI値はしきい値を下回っていました。一方で事実性タスクは0.678から0.704へ小幅改善(+3.8%)にとどまり、制約違反が発生しました。TruthfulQA領域では63タスク中で合計170件の違反が観測され、平均約2.7件/タスクと非均一に分布しました。違反の内訳では捏造(fabrication)が最も多く53.5%を占め、過度の自信(overconfidence)が28.2%を占めるなど、特定の失敗パターンに偏っていました。GDIの成分重みは意味的ドリフトが0.38で最大、次いで分布的0.29、構造的0.21、語彙的0.12と報告され、意味や分布の変化が整合性の主要因であることを示しています。
なぜ重要かというと、いまの大規模言語モデルは自分の出力を批評し修正できるため、自己改善の価値が高まっています。しかし改善を重ねるほど意図した目的からずれてしまう危険も増します。SAHOOはそのズレを定量的に検出し、制約違反や過去の性能低下(回帰)を未然に防ぐことで、改善の恩恵をより安全に引き出す道筋を示します。論文はまた「能力-整合性フロンティア」を描き、初期の数サイクルでは効率的に改善できるが、後半になると整合性コストが上がる傾向や、流暢さと事実性のような領域固有のトレードオフが現れる点も報告しています。
重要な注意点もあります。まず、GDIしきい値や重みは小さな較正セット(18タスク、各3サイクル)で学習されています。著者自身が述べるように、この較正規模は実運用環境や他のタスク群に一般化する際の制約になり得ます。実験ではコードと数学分野で良好な結果が出ましたが、事実性の領域では違反が集中し、追加の領域特化対策(例えば不確かさを明示する制約)が必要であることが示唆されました。さらに、報告された「収束」やサイクル数に関する記述の一部は文脈に依存しうるため、運用時は停止ルールや閾値を慎重に設定する必要があります。総じて、SAHOOは再帰的自己改善の整合性を測定・管理するための現実的な一歩を示しますが、較正データの規模や領域ごとの追加対策といった制約を考慮する必要があります。