大規模言語モデルは手順通りに計算を続けられるか:段階的検査で見えた弱点
この論文は、大規模言語モデル(LLM)が見かけ上は正しい答えを出しても、与えられた手順を忠実に実行できているとは限らない点を調べています。研究者たちは、手順通りに実行する能力を厳密に測るために、段階的な算術アルゴリズムと二つの数値入力を与える診断ベンチマークを作りました。出力は決まった数値で検証できるため、手順の追従ミスをあいまいさから切り離して調べられます。
研究チームはベンチマークとして、5〜95段階までのアルゴリズム長や「ルックバック」依存(現在のステップが数ステップ前の中間変数に依存する度合い)を変えました。操作は足し算、引き算、掛け算、割り算のどれかで、初期変数はS1=x、S2=yとして順に中間変数S3,S4,…を計算します。入力は[0,1]、[1,10]、[10,100]の範囲を使い、整数と小数の混在や単一操作だけの系列など、合計55のデータセット、合計55,000例を用意しました。計測は14の異なるモデルで行い、最初に出した答えの正答率だけでなく、生成過程に現れる失敗の型も解析しました。
主な結果は明確です。段階数が増えるとモデルの最初の答えの正答率は低下します。平均で5段階では61%ですが、95段階では20%に落ちます。ルックバックの深さを1から7に増やすと平均正答率はさらに18.43ポイント低下しました。生成レベルの解析では、「完全に各ステップを正しく実行する割合」は70.88%から46.84%に下がり、「途中でステップを省略する(過小実行)」割合は24.25%から50.87%に増えました。よく見られた失敗には、答えを出さない、途中で早めに答える、最初は間違って後で自己修正する、必要な中間計算を追えなくなる、存在しない追加ステップを作る(幻視)といったものが含まれます。
この研究が重要なのは、最終結果の正しさだけでは見えない「手順どおりに動くか」を評価できる点です。数値計算やルールに従う判断、手順に基づくワークフローの自動化などでは、単に正しい答えを返すだけでなく指定の順序や中間状態を正確に扱うことが求められます。制御された算術タスクはこうした性質を分離して検査できるため、モデルの実用面での信頼性評価に役立ちます。
重要な留意点もあります。本ベンチマークは単純な算術で評価しており、実際の自然言語や複雑な業務手順の全てを反映するわけではありません。また、評価対象は論文で試した14モデルと55データセットに限られます。論文自体も示すように、最終答えが正しくても途中に種々の失敗が隠れている場合があるため、応用先によってはさらに広い種類のテストや改善手法が必要になるでしょう。