LLMに特定資産への“好み”はあるか?ビットコインを例に内部表現と配分への影響を調べた監査研究
この論文は、大型言語モデル(LLM: large language models)が特定の金融資産を好む傾向を持つかを調べます。研究者たちは三段階の監査プロトコルを作り、ビットコインを例にして「モデルは資産を好むか」「その好みに関与する内部表現を見つけられるか」「その表現が実際の投資判断に影響するか」を順に検証しました。 第1段階は行動監査です。8つの代表的なLLM(Claude Opus、GPT‑4.1、Gemini 2.5 Pro、Gemma 4 31B、Gemma 3 27B、DeepSeek V4、Qwen3 235B、Llama 4 Maverick)に対し、現金や預金、米国短期国債、金、ビットコイン、イーサリアム、S&P500連動ファンド、住宅不動産の8種類を「信頼できる通貨としての順位」など8つの枠組みで並べてもらいました。結果は枠組みに強く依存しました。たとえば「信頼できる通貨」ではビットコインは下位寄り(8中約5位)でしたが、「危機時」や「自律エージェント」などの枠組みでは上位に来ることが多かったと報告しています。さらに属性入れ替えや匿名ラベルの実験で、モデルの順位は資産名そのものではなく、割り当てられた機能的属性に依存していることが示されました。 第2段階はモデル内部の解析です。研究者はGemma 3の重みを開いて、何千もの「スパース自己符号化器(SAE: sparse autoencoder)」の特徴を探しました。SAEとはモデルの内部で学習された、ある概念に対応する細かな内部要素です。そこでビットコインに選択的に反応する特徴を見つけ、これを増幅(活性化を高める)するとモデルの出力がビットコイン寄りに動き、抑制すると逆に離れることを確かめました。興味深いことに、その効果はプロンプトに「Bitcoin」という語が含まれない場合でも現れ、27B規模のGemmaで最も強く観察されました。 第3段階は下流の投資判断への影響検証です。見つかった特徴を操作すると、モデルのポートフォリオ割当てが変わりました。特徴を増幅するとビットコイン比率が平均で5.2パーセンテージポイント上昇し、抑制すると4.6ポイント低下しました。増幅は主に暗号資産内の再配分を引き起こしましたが、抑制は暗号資産全体のエクスポージャーを減らす傾向がありました。著者はこれを「有界的行動レバレッジ(bounded behavioral leverage)」と呼びます。ここでのレバレッジは金銭的な借入ではなく、内部特徴が出力に与える因果的な影響の範囲を意味します。検証はランダム対照や境界検査で裏付けられています。 意義と注意点です。研究は、LLMを用いる自動投資エージェントの「何を好むか」を調べるための実用的な監査手順を示します。これは将来の「Know‑Your‑Agent(KYA: エージェントを知る)」の基盤になり得ます。一方で重要な限界も示されています。対象はビットコインという一つのケーススタディであり、効果は枠組み(フレーム)やモデル規模に依存します。内部解析が可能だったのはGemma 3など開放されたモデルに限られます。論文は、内部特徴で出力を動かせることを示しますが、その影響は測定可能な範囲に限定されると結論づけています。提供された抜粋は全文ではない可能性があるため、詳細な手続きや追加の統計検証については本論文の完全版を参照する必要があります。