生成型レコメンダーの後学習:観測報酬をexp(r/λ)で重み付けする手法がRLHFより堅牢だと主張
何を扱う論文か。生成型レコメンダーとは、ユーザーの行動履歴から次に出すべき項目を順に生成するモデルです。本論文は、こうしたモデルをユーザーの実際の好みに合わせて「後学習」する際の手法を扱います。著者らは、既存の手法が産業規模のシステムでは問題を抱えると指摘し、観測される報酬だけを
何を扱う論文か。生成型レコメンダーとは、ユーザーの行動履歴から次に出すべき項目を順に生成するモデルです。本論文は、こうしたモデルをユーザーの実際の好みに合わせて「後学習」する際の手法を扱います。著者らは、既存の手法が産業規模のシステムでは問題を抱えると指摘し、観測される報酬だけを使って学習例に重みを付ける「指数報酬重み付き教師あり微調整(Exponential Reward-Weighted SFT、Exp-RSFT)」を提案します。重みは w = exp(r/λ) という形で与えられます。ここで r は観測報酬、λ は温度(スケーリング)です。
何を試したか、どう動くか。研究者たちはまず、既存の後学習手法の問題点を整理しました。RLHF(Reinforcement Learning from Human Feedback、ヒューマンフィードバックを用いた強化学習)は学習した報酬モデルを使いますが、推薦ではアイテムの大半に対する教師信号が極端に薄く、その報酬モデルが過度に楽観的に誤推定することがあります。逆にオフラインの逆確率重みづけなどは、ログ記録ポリシー(どのアイテムを元々選んだかの確率)を知らないと使えません。Exp-RSFTは、学習中に報酬モデルを問い合わせず、収集済みデータ中の実際の報酬のみを使って各例の学習重みを exp(r/λ) によって決める方式です。これにより「報酬ハッキング(学習した報酬モデルの盲点を突いて不正に高評価を得ること)」を避け、逆確率スコアも不要で、全てオフラインで処理できます。
なぜ重要か。本手法には理論的な裏付けと実験的な裏付けの両方があります。理論面では、観測報酬がノイズを含む場合でもポリシーの改善保証を示し、そのギャップ(改善の余地)がアイテムカタログサイズに対して対数的にしか悪化しないことを示しました。つまり、アイテム数が非常に多い実運用環境でも情報として有効性が残ると主張しています。さらに温度パラメータ λ が、ノイズに対する「頑健性」と改善幅のトレードオフを明示的に制御することを示し、実務者にとって解釈しやすい単一の正則化ハイパーパラメータを提供します。実験では公開ベンチマーク3件と大規模な社内データセットの合計4件で、PPOやDPOといったRLHFベースの手法や線形重みづけ、行動クローニング(単純な模倣)など4つのベースラインと比較し、Exp-RSFTが一貫して競合または上回る結果を示したと報告しています。
重要な観察と制約。著者らは学習した報酬モデルが推薦の文脈では致命的に失敗することを実証しています。具体的には、学習した報酬モデルが単純なアイテム平均予測より優れない場合があり、PPOやDPOはその不正確な報酬モデルに対して過剰最適化して実際の評価指標で崩壊することがあったとしています。一方で、単に報酬を線形で重み付けする方法は、人気度(ログ頻度)と真のアイテム品質を混同し、ノイズにも弱いと述べられています。指数重みづけは λ を下げると人気にかかわらず高報酬項目に集中し、λ を調整することで再ランキングの積極性とノイズ耐性を調整できる点が利点とされます。
注意点。本文は抜粋に基づく要約であり、詳細な数値や実験設定の全ては本文または付録に依存します。結果は公開ベンチマークと1件の大規模データで示されていますが、実運用での挙動はログデータの性質や報酬の定義(視聴時間、評価、再訪など)に左右される点に留意が必要です。著者自身も、観測報酬が本質的にノイズを含む点や、オフラインデータが既存の選択バイアスを抱える点を前提条件として扱っています。これらを踏まえつつ、Exp-RSFTは実務的な制約下で後学習を行う有望な選択肢として提示されています。