大規模言語モデルを「測定器」にして行動パラメータを校正する新手法:金融モデルへの応用検証
この論文は、大規模言語モデル(LLM: Large Language Models)を行動パラメータの計測機器として扱い、損失回避(loss aversion)や追随行動(herding)、外挿(extrapolation)などのパラメータを意図的に変えられるかを調べた研究です。研究者は、プロンプト内に行動プロファイルを埋め込み、モデルの「性格」を実験的に操作して、得られる数値が人間のベンチマークと量的に比較できるかを評価しました。目的は、これらのパラメータを人間実験では難しい規模や精度で測定・校正できるかを示すことです。
実験では4種類のLLM(GPT-4o、GPT-4o‑mini、Claude‑3.5‑Haiku、Gemini‑2.5‑Pro)を用い、主要分析で19,200のエージェント–シナリオ組合せ、除外モデルを含めると24,000組を実行しました。すべての問題は研究者が作成した合成の金融シナリオで、訓練データに含まれないことが保証されています。研究者は8つの代表的な行動バイアスを対象に、ベースライン(何も操作しない状態)の挙動と、プロファイルで誘導した挙動を比較しました。ここで「プロファイルベースの校正」とは、ある性格や傾向を示す文言をプロンプトに入れてモデルの応答を変える手法です。
主要な発見は次の通りです。まずベースラインのLLMは、人間のデータと比べて理性的すぎる方向の偏りが観察されました。具体的には損失回避の指標λはモデルで1.12〜1.90とやや低めで、人間の目安とされる約2.25に比べて弱い値でした。追随の強さは人間の実験で観察される65–75%に比べて弱く、利食いや損切りの癖に相当する「処分効果(disposition effect)」はほぼゼロでした。一方でプロファイルによる校正は大きく安定した変化を生みました。損失回避は最大でλ=3.00まで上がり、追随率は90%まで達し、外挿を表すモメンタム係数は0.88、アンカリング(初期値への固執)と評価の相関は0.67にまで届きました。さらに、校正したパラメータをエージェントベースの資産価格モデル(ABM: agent‑based model)に組み込むと、校正された外挿が短期のモメンタム(続伸)と長期のリバーサル(逆転)という経験的に知られたパターンを再現しました。これは校正結果が単なる心理測定の産物ではなく、資産価格に関する経済的意味を持つことを示します。
なぜ重要か。行動パラメータの測定は、人間を対象にすると誤差や識別困難、因果推定の難しさ、コスト面の制約が大きく、スケールもしにくいという問題があります。本研究の方法はプロンプトを使ってパラメータを実験的に操作できるため、安定した校正関数や測定範囲を得られる可能性を示します。こうした校正済みのパラメータは、エージェントベースモデルに現実的な行動を持つ主体を入れるための手がかりになります。研究者自身も、本研究の主な貢献は方法論的なフレームワークの提示であり、実証結果はこのフレームの妥当性を検証するためのものだと述べています。コードと生データも公開されています。
重要な注意点と限界も明記されています。まずLLMは人間そのものではありません。行動パラメータは潜在的で文脈依存です。同じ個人でも状況によって値が変わることがあり得ます。論文はまた、校正が成功する領域と失敗する領域を明確に示すことを目的とし、すべてのバイアスで同様にうまくいくわけではないとしています。外的妥当性(現実の人間行動への一般化)については、本文で提示したABMへの組み込みで一定の検証を行っていますが、より広い応用には慎重な検討が必要です。以上を踏まえ、本研究はLLMを新しい「計測器」として使う試みを示す方法論的な一歩と言えます。