大規模言語モデル(LLM)は人間と異なる戦略行動を示す――計算の限界を示す「δ」で説明する新枠組み
この論文は、大規模言語モデル(LLM)を人間の代わりに使って戦略的な行動を模擬する試みが、必ずしも成り立たないことを示します。著者は、人間の選択を「古典的な合理性の基準」と「加法的な補正項δ(デルタ)」に分けて考えます。ここでのδは、人間が計算能力に制約を受けることで生じるズレを示す数学的な印です。LLMは訓練データから解を取り出して組み合わせるため、この人間特有のδを通り抜けてしまうことが多いと主張します。
著者は2022年から2026年の間に出た15件の研究をまとめて、LLMと人間の行動が一貫して違うことを示す証拠を整理しました。具体的には、独裁者ゲームや最後通牒(さいごの申し出)ゲームではLLMがより公平な分配を選び、囚人のジレンマのような協力ゲームではLLMの方が協力しやすいという報告があります。美のコンテスト(ビューティーコンテスト)やオークションでも、LLMがナッシュ均衡(理論上の戦略的な均衡点)に近い選択をする傾向が指摘されました。多くの研究で、単に人間データでファインチューニングしたり、特定の人格を与える(ペルソナ条件付け)だけではギャップが解消しないと報告されています。
理論的には、論文は人間の行動を「古典的な基準+δ」という加法分解で読むことを提案します。ここでのδは「有限の計算力の証拠」です。無限に計算できる理想的な主体は古典解を出しますが、人間は計算や情報処理に制約があるため補正が生じます。一方で、LLMは訓練データに存在する解を取り出して組み合わせることで、その補正を回避しやすいと説明します。つまりLLMは基準だけを出すことが多く、人間特有のδは再現されにくいというわけです。
この枠組みは、いわゆる「推論蒸留(reasoning-distilled)」型モデルにも当てはめられます。認知階層理論(cognitive-hierarchy)の観点では、モデルが使える「レベル-k」的な推論は、人間の認知制約ではなく計算予算や文脈長(コンテキストの長さ)に制約されます。したがって、もしモデルがδに相当するズレを出すならば、その構造は人間のδとは異なるはずだと論じます。ここでのレベル-kとは、相手がどう考えるかを何段階まで想定して考えるかという考え方です。
検証のために四つの実験的な検査を提案しています。条件依存性(conditional dependence)、分布の非対称性(distributional asymmetry)、繰り返し時の経路依存性(path-dependence under repetition)、言い換えに対する頑健性(paraphrase-robustness)です。さらにモデレーター予測として、対戦相手が個別に識別できる環境ほどδの大きさが増すとし、名前付きの相手と集計された相手を比べたときに、効果量でコーエンのd≧0.5という定量的な境界を提示しています。これらは人間由来のδとモデル由来のδを区別するための実験的指針です。
重要な注意点も示されています。既存研究の多くは傾向が一致しているものの、効果量や差の大きさを論文の要約だけから正確に取り出せることは稀です。メタ解析はまだ難しく、特定のゲーム(例えばタロックコンテストや全額払戻しオークション)についてはLLM対人間の比較研究が見当たらない空白があります。著者はこの空白を検証の重要なターゲットとして挙げています。最後に、論文はLLMを「人間の代理」として使えるのは、人間のδが小さい意思決定環境に限られると主張しますが、この主張はさらなる実験で検証する必要があると結んでいます。