Fast‑Slow Training:プロンプトを「速く」、重みを「ゆっくり」学ばせてLLMを継続適応
この論文は、大型言語モデル(LLM)が新しい仕事を学ぶときに、学習を二つの速さで分ける方法を提案します。モデルの内部の重みは「遅い」学習でゆっくり更新します。一方、プロンプトや与える文脈は「速い」学習として頻繁に変えられます。著者らはこのFast‑Slow Training(FST)という仕組みが、少ない試行で性能を上げつつ、元のモデル性質を保てると報告します。
研究チームは、遅い学習には強化学習(報酬に基づく重み更新)を使い、速い学習にはGEPAという反射的(reflective)なプロンプト最適化手法を用いました。GEPAは複数のプロンプト候補を持ち、それぞれをロールアウト(モデル出力の試行)で評価して改良します。プロンプト群を一つの「個体群(population)」として扱い、最良の一つではなく多様な候補を保つ点が特徴です。訓練はプロンプト最適化と重み更新を交互に行うサイクルで進みます(例:サイクル長T=6、候補数K=4か8)。
高いレベルでは、プロンプト群が課題固有の情報をすばやく取り込みます。すると重みの更新側は元のモデルから大きくずれずに済みます。つまり短期的な適応は文脈(プロンプト)が担い、長期的で一般的な行動はモデル重みが担う、という分業です。プロンプトはロールアウトから得られる詳細なテキストフィードバック(思考過程やエラーなど)を用いて改善されます。
実験ではコード出力予測、数学問題、多段事実検証という三種類の推論タスクで評価しました。基礎モデルにはQwen3‑8Bを用い、FSTは同等の報酬に到達するのに最大で3.0倍少ないロールアウトで済みました(CodeIOで3.0×、数学で1.4×、HoVer‑hardで3.0×)。さらに、同じ性能に達したときにFSTは元のモデルからのズレ(KLダイバージェンス)が最大70%小さくなり、忘却(catastrophic forgetting)が減少しました。あるタスクで訓練した後に別タスクへ移った場合も、FSTモデルはよりうまく順応し、パラメータのみで訓練したモデルは順応能力を失ってほぼ0%に落ちたと報告しています。継続学習の場面でも、タスクが切り替わるときFSTは新しい課題を獲得し続ける一方、パラメータのみのRLは停滞しました。
重要な注意点があります。実験は「検証可能な報酬」を与えられる設定(正誤を自動判定できるタスク)で行われています。速い学習にはGEPAと固定の反射用言語モデルが必要です。これらの設計や用いたデータセット、モデルサイズ(Qwen3‑8B)に結果が依存している可能性があります。論文の抜粋は本文の一部であり、他の条件や詳細な制約は本文全体で確認する必要があります。FSTは有望なアプローチですが、すべてのタスクや運用環境で同じ利点が得られるかは追加検証が必要です。