MEMO:メモリを使って対話型LLMゲームの安定性と勝率を高める方法
この論文は、多ターン・マルチエージェントの大規模言語モデル(LLM)ゲーム評価で起きる不安定さを減らし、性能を上げる手法を示します。問題は、対話が長くなると初期の小さなずれがターンを重ねて拡大し、勝率の推定がぶれることです。さらに、わずかなプロンプト(与える指示)違いが方針を変え
この論文は、多ターン・マルチエージェントの大規模言語モデル(LLM)ゲーム評価で起きる不安定さを減らし、性能を上げる手法を示します。問題は、対話が長くなると初期の小さなずれがターンを重ねて拡大し、勝率の推定がぶれることです。さらに、わずかなプロンプト(与える指示)違いが方針を変え、試合結果やモデルのランキングに大きく影響します。著者らはこれを「推論時の文脈」を最適化することで改善しようとしました。文脈とは、開始時の指示や試合中に注入するメモリのことです。MEMOはこの文脈を学習的に整えますが、モデル本体の重みは変えません。つまり推論時の準備だけを賢くする手法です。
提案手法はMEMO(Memory-augmented MOdel context optimization)と呼ばれます。MEMOは自己対戦(self-play)で得た経験を二つの仕組みで使います。1つ目は保持(retention)です。ここでは「メモリ銀行」と呼ぶ永続的な保存領域に、自己対戦の経路(どのように動いたか)から得た構造化した知見を格納します。メモリは作成・読み出し・更新・削除が可能で、後の試合で先入観(prior)として注入されます。2つ目は探索(exploration)です。複数の候補プロンプトをトーナメント方式で進化させ、TrueSkillという評価で不確かさを考慮して選びます。優先再生(prioritized replay)という手法で、稀にしか起きないが勝敗を左右する状態を再訪して学ぶ工夫もします。TrueSkillは各候補の勝ちやすさを平均と不確かさで表す評価法で、低い信頼区間を取ることで不確かな候補を避けます。
実験はTextArenaとSPIN-Benchの五つのテキストベースゲームで行われました。結果として、GPT-4o-miniでは平均勝率が25.1%から49.5%に上がりました。同様にQwen-2.5-7B-Instructでは20.9%から44.3%へ改善しました。各タスクで使用した自己対戦の数は2,000ゲームです。加えて、試行ごとのぶれも減り、相対標準誤差(RSE)が従来の43.3%から6.4%へと約7倍小さくなっています。学習効率の面では、たとえばKuhn Poker(クーンポーカー)でMEMOは2,000ゲームで60%の勝率に到達しました。これは自己対戦を続けて重みを更新する強化学習(Reinforcement Learning;RL)ベース手法が同等の結果を出すのに要した38,000ゲームの約19分の1の試行数です。
なぜ重要かを簡単に言うと、対話型の評価や応用で「文脈」が結果を左右することは多いです。MEMOは文脈を固定の枠ではなく、試合を通じて改善できる資産と見なします。これにより、交渉や不完全情報のゲームのような場面で特に大きな改善が得られました。結果の安定化は、モデル比較や再現性の向上にもつながります。さらに、MEMOはモデルの重みを更新しないため、既存の商用モデルなどにも適用しやすい利点があります。
重要な注意点もあります。論文自身が示す通り、MEMOの最も大きな利得は交渉や不完全情報ゲームに集中しています。完全情報のゲームでは、重みを直接更新する強化学習の方が今のところ有利な場合があります。また、結果は五つのテキストゲームと限られた自己対戦予算(例:2,000ゲーム)で得られたものです。したがって他のゲームやより大きな予算での一般化には注意が必要です。加えて、MEMOは文脈の最適化に依存するため、元のモデルの能力の限界は超えられません。
最後に、手法の具体的な要素としては、候補コンテキストのプール管理、TrueSkillによる不確かさ罰則(S(c)=μc−κσcのような下限評価)、メモリからの洞察を使った文脈生成、そして優先再生による稀状態の再評価が組み合わされています。これらの工夫により、単純なプロンプト探索よりも記憶を蓄積して活用することで、長期的な改善と安定化が可能になったと著者らは主張しています。