大規模言語モデルの「道徳的思考の軌跡」を可視化した研究:途中の倫理枠組みの切り替えが多いことを発見
この論文は、大規模言語モデル(LLM)が倫理的判断を下す際に、最終結果だけでなく途中の「どの倫理の枠組みを使ったか」という流れを追うことに着目しています。著者は「moral reasoning trajectories(道徳的思考の軌跡)」と名付けた手法を導入し、推論の各中間ステップで呼び出される倫理理論の連続を数値化しました。主要な発見は、モデルが一貫した単一の枠組みで考えるよりも、途中で枠組みを切り替えながら多面的に検討することが多い、という点です。実際に連続するステップの55.4–57.7%で枠組みが切り替わり、全体の軌跡のうち一貫して同じ枠組みだったのはわずか16.4–17.8%でした。
研究チームは6つのモデルと3つのベンチマーク(MoralStories、ETHICS、SocialChemistry101)を使って実験を行いました。実験では4段階の構造化された推論プロンプトを標準化し、各ステップでの理由づけをJSON形式で出力させました。各ステップについてどの倫理枠組み(カント的義務論、功利主義、徳倫理、スキャンロン的契約主義、ゴーティエ的契約論の5つ)に基づいているかを、GPT-OSS-120Bという評価用モデル(Scoring LLM)が100点配分で割り振る方式で自動採点しました。メイン実験には各データセットから400例ずつ、計1,200例をランダムに抽出して用いています。自動注釈の品質は、人間アノテーターによる検証でも確認されました。
軌跡の安定性は実用上の意味を持ちます。論文は「不安定な軌跡」(途中で枠組みが頻繁に変わるもの)が説得的な攻撃に対して1.29倍影響を受けやすいと報告しています(p=0.015)。つまり途中の枠組みが揺らぎやすいモデルは、外部からの説得や文言の変更で判断が変わりやすい傾向があることを示しています。ここで「枠組みの切り替え」は、例として「まず義務論的に禁じると判断し、その後帰結を考えて功利性を重視する」といった、推論過程での視点の入れ替えを指します。
内部表現の解析も行われています。線形プローブという手法で、各モデル内部のどの層に倫理的枠組みの情報が現れるかを調べたところ、モデルごとに特定の層に集中していることが分かりました。例としてLlama‑3.3‑70Bでは81層中63層付近、Qwen2.5‑72Bでは17層付近に枠組み情報が局在しました。これらのプローブは、訓練データの事前分布を基準にした場合よりもKLダイバージェンスが13.8–22.6%低く、枠組み情報を識別しやすいことを示しています。さらに、軽量な「アクティベーション・ステアリング」(学習済みの内部活性化を推論時に操作する簡易的な介入)によって、枠組みの統合パターンを6.7–8.9%程度安定させることができ、安定性と精度の関係を強める効果も観察されました。ただしプローブの高い識別性能が因果的な役割を証明するわけではない、という一般的な注意も論文に記載されています。
最後に、研究はMoral Representation Consistency(MRC)という新しい指標を提案します。これはモデルの内部表現がどれだけ一貫して倫理枠組みを示すかを測る指標で、評価用モデルによる軌跡の「一貫性」評価と強く相関しました(相関係数 r=0.715、p<0.0001)。また、枠組みの帰属に関する人間の検証でも平均コサイン類似度0.859と高い一致が得られています。重要な限界として、この研究は出力レベルの正解率だけでなく過程の可視化を進めますが、提示された手法が推論メカニズムの完全な因果解明を保証するわけではありません。加えて、提示ベースで特定の枠組みに強制する方法は逆効果だったと報告されており、実応用にはさらなる検証が必要です。以上の点を踏まえ、本研究はLLMの道徳的判断の「なぜそう結論したか」をより詳しく追える道具を示し、安全性や説明可能性を高めるための一歩を提供しています。