言語モデルは自分が「正しい道」にいるかを内部で線形に表現している可能性—Qwen3‑8Bでの発見
この論文は、言語モデルが生成の途中で「今の方針が目標を達成しそうか」を内部で表す軸(“value(価値)軸”)を持っているかを調べたものです。著者らはQwen3‑8Bというモデルの中間層にそのような方向を見つけ、軸の値が高い時はモデルが自信を持ってその方針を続け、低い時は方針を変えたり自己修正したりする傾向があると報告します。こうした内部表現は、モデルの「どちらを続けるべきか」という判断に関わる信号だと解釈できます。
研究者たちはまず、in‑context reinforcement learning(文脈内強化学習、ICRL)風の合成会話を作りました。ここではモデルにある隠れ基準(例:「ダッシュを入れる」)を満たすよう段落を直すゲームをさせ、ユーザー役から成功で+1、失敗で−1のフィードバックを与えます。300件の会話をもとに、モデルが基準を「発見」した直後のトークンの活性とそれ以前の活性の差を取ることで、各層における「価値」方向を構成しました。中間層(論文では主に21層付近)でこの方向が安定しており、25の未使用基準に対する分類でAUROC(識別性能を示す指標)が0.95以上になったと報告しています。AUROCは0.5がランダム、1.0が完璧を示します。
この価値軸が単なる解析上の特徴ではなく、実際の信頼感や行動に結びつくかも調べています。455問のAIME数学問題で「あなたは正解だと思いますか?」と問うと、回答の「はい」「いいえ」を分ける前のトークンで価値軸の投影が高いほど“はい”が出やすく、事前の投影で自信ありと自信なしを分けるとAUROCが0.75以上になりました。コード問題では、225件のLeetCode解答の正解版とバグ版を比べ、正しいコードの方が価値軸の投影が高いことが示されました。また、自己修正や「待って、訂正します」などの後戻り発話が出る場面では軸の値が低下しました。
さらに因果性を確かめるために、研究者らはモデル中の活性に価値軸のベクトルを加算(「ステアリング」)して挙動を改変しました。軸を高める方向に操作すると自己修正が抑えられ、説明や余談が減り、より自信を持って同じ方針を続けます。逆に低くする操作は探索や方針転換を誘発します。加えて、direct preference optimization(直接嗜好最適化、DPO)で特定の単語を好むよう学習させると、その単語に対する内部の価値が上がり、単語を使った後にモデルがより自信ありの振る舞いをするようになると報告しています。興味深い観察として、ポストトレーニング後のチャット設定では政治的に敏感な問い合わせに対し内部価値が低くなる傾向があり、教師付き微調整は訓練ドメイン内の内部自信を上げるという結果も示されました。
重要な注意点もあります。これらの結果は主にQwen3‑8Bという一つのモデルと、著者が用意した合成ICRLデータや特定の評価データセット上で得られたものです。論文は価値軸が中間〜後半層に現れると述べますが、すべてのモデルやすべてのタスクで同じしくみが働くとは限りません。因果的な介入実験は価値軸が挙動を変えることを示しますが、実際の大規模応用での影響や長期的な安全性への含意はこの研究範囲外です。論文の抜粋はさらに詳細や追加実験を含む可能性があり、完全な評価には本文全体の検討が必要です。