大型言語モデル(LLM)は経済判断で“人間らしい”誤りをするが、種類によっては合理的になることもある
この論文は、大型言語モデル(LLM: Large Language Models)が経済や金融の判断で体系的な心理的偏りを示すかどうかを調べ、もしあればどう直せるかを探る研究です。著者らは認知心理学と実験経済学で使われる質問をそのまま使い、複数の主要なLLMファミリーに対して最も包括的な実験セットを実行しました。目的は、LLMの「行動経済学」を明らかにして、ツールとしての信頼性や実務での適用を評価することです。
研究チームはOpenAIのChatGPT、AnthropicのClaude、GoogleのGemini、MetaのLlamaという四つのLLMファミリーから、古い版と新しい版、さらに同じ新しい版でも大規模版と小規模版を比べる形で応答をAPI経由で収集しました。実験は大きく二種類です。一つは「選好(preferences)」に関する問題で、ここでは人間が示す心理的な偏りを問います。もう一つは「信念(beliefs)」に関する問題で、確率や予測の合理性を問います。論文は具体的な数値も示します。たとえば、Claude3 Opus(高度で大規模)は選好の6問中4問で人間に似た答えを出し、古いClaude2は1問だけ人間に似た答えを出しました。一方で信念問題では、Gemini1.5 Pro(高度で大規模)が10問すべてに正しく答え、古いGemini1.0 Proは2問しか正解しませんでした。
主要な結果は二つの対照的なパターンです。選好に関する問いでは、モデルがより高度で大きくなるほど人間らしい、つまり期待効用理論(Expected Utility:合理的な選択基準)から外れる非合理な答えを出す傾向が強くなりました。対照的に、信念に関する問いでは、より高度で大規模なモデルほど統計的に合理的な答えを出すことが多くなりました。モデル間の違いも目立ちます。たとえばGeminiは選好問題で比較的人間らしい回答が多く、Meta Llamaは信念問題でより人間らしい(=非合理的)回答をする傾向がありました。実験経済学の設定をそのまま使った追試でも似た傾向が出ています。自動回帰過程の予測タスクでは大規模モデルがより合理的な持続性の判断を示し、小さめの高度モデルは人間と同様に過度に持続的だと判断することがありました。株式の視覚的な値動きに基づく投資判断では、大規模型は視覚的に目立つ軌跡に強く影響される“人間らしい”投資をしやすい結果になりました。
偏りを直す方法も試しました。効果的だったのは「役割プライミング」と呼ぶ簡単な指示で、回答の前にモデルに対して「期待効用の枠組みで合理的な投資家として考えてください」と促すものです。この一言で選好・信念の両方の問いに対する回答はより合理的になり、選択時の自信や自己報告する思考タイプ(直感的か分析的か)にも変化が出ました。ただし改善の大きさは経済的に見ると控えめで、他の複合的な手法は効果が見られませんでした。つまり、完全なデバイアス(偏りの除去)は依然として難しいという結論です。
論文は記述的な結果を提示しており、こうした振る舞いの根本原因の完全な解明は範囲外だと明言しています。著者らは二つの仮説を挙げます。一つは、人間のフィードバックを使った学習手法(RLHF: Reinforcement Learning from Human Feedback、人間の反応でモデルを強化する学習)が大型モデルを人間らしい選好に近づける可能性です。もう一つは、より多くの学習データと計算力があれば信念問題で統計的真実を正しく見抜きやすくなるという説明です。限界も明示されています。解析は2023年に始められたモデル群に基づいており、いくつかのモデルは図の入力を処理できなかった(調査した12モデルのうち6モデルが図形入力未対応)点や、結果が記述的で因果の特定には至っていない点などです。これらを踏まえ、著者らはLLMを研究ツールや金融応用で使う際に、モデルのバージョンや規模によって挙動が変わることを注意深く監視する必要があると結論づけています。