大規模言語モデルの「ペルソナ」は二重性を持つ:平均傾向と順序に依存する幾何学構造
要点:研究者は、大規模言語モデル(LLM)が示す「人格」的な振る舞いに二つの別個の要素があると報告しました。一つは従来の平均化された特徴(たとえばビッグファイブの得点)で、もう一つは質問の順序など測定のフレームに依存する幾何学的な協調パターンです。これらは両立し、別々に振る舞います。
何をしたか:研究チームはIPIP‑50(国際的な性格項目プール)の50項目を用い、GPT‑4o(temperature=0.7)に「アメリカ人」あるいは「中国系アメリカ人」を模擬するよう指示して回答を得ました。各インスタンスごとに項目間の相関行列を作り、対称正定値行列(SPD)上の幾何学を使って解析しました。重要な操作として、質問の順序を固定する条件(Fixed Order)、ランダムにする条件(Random Order)、そしてランダム順だがブートストラップで共有フレームを復元する条件(RO‑BTSP)を比較しました。サンプルは各条件で概ね100件程度(最終カウントはFixed Order合計193、Random Order合計187)です。
主な結果:平均化した特徴(ビッグファイブ得点)は質問内容をランダム化すると性能が落ちる(約21%の低下)が、フレームのずれ(順序のずれ)には比較的堅牢でした。一方、幾何学的特徴(SPD行列に基づく固有値や固有ベクトルなど)はフレームの不整合で大きく崩れる(約42%の低下)が、共有フレームで再整列させると大幅に回復し(最大で84%まで)、その回復は平均化特徴の回復(76%)を上回りました。固定→ランダム→再整列の条件で「崩壊して回復する」V字型のパターンが観察され、筆者らはこれを「フレーム依存の協調パターン」の証拠と解釈しています。
なぜ重要か:この発見は、単に項目ごとの平均を取る従来の評価が見落とす情報があることを示します。順序や文脈の揃い方が、次元同士の「協調」の見え方を左右するため、人格評価を行う際には測定フレームに注意を払う必要があります。研究はまた、LLM評価のためにインスタンスごとの相関行列を使う新しい方法(Item‑Dimension Matrix)を提案しており、幾何学的解析を通じて順序効果と内容効果を分離する枠組みを示しました。
重要な注意点:本研究は一つのモデル(GPT‑4o)と、文化的誘導としての「アメリカ/中国系アメリカ人」という二分類を実験台にしています。著者は大規模サンプル(N≈2000)での検証を補遺に示していると述べていますが、ここで提示した内容は論文抜粋に基づく要約であり、手法や一般化の限界は元資料の詳細に依存します。また、この稿はICMLへの投稿後に撤回され、arXivのプレプリントとして公開された点にも留意してください。