合成タスクで「実験するAI」を育てる試み:機械学習課題を自動生成して学習軌跡を作る研究
この論文は、機械学習の研究課題を自動で作り、その実行過程(軌跡)を使ってAIを訓練する方法を示します。研究チームは、合成された多様なML(機械学習)タスクの集合を作り、教師モデルから得た行動の記録で学生モデルを微調整しました。結果として、ベンチマークMLGym上でQwen3-4B
この論文は、機械学習の研究課題を自動で作り、その実行過程(軌跡)を使ってAIを訓練する方法を示します。研究チームは、合成された多様なML(機械学習)タスクの集合を作り、教師モデルから得た行動の記録で学生モデルを微調整しました。結果として、ベンチマークMLGym上でQwen3-4BはAUP指標で約9%向上し、Qwen3-8Bは約12%向上しました。AUPは複数タスクの総合的な性能を表す集計指標です。
研究者たちは三段階のパイプラインを作りました。まずトピックをサンプリングし、各トピックについてタスクの説明と使うデータセット候補を生成します。候補データはHugging Faceの検索APIで照合して実際のデータに対応させます。次にタスクを実行できるように設定ファイルやスターターコードを自動生成し、最後に生成タスクを実際に動かして検証します。動作検証ではGPT-5を教師モデルとして用い、実行中に出たエラーをモデルへ返す「自己デバッグ」ループで修正を試みます。
パイプラインは大規模な並列実行に向いています。論文では約500個の合成タスクを作り、各タスクで最大256本の軌跡を集めることを目標にしました。集めた軌跡はフィルタリングされ、少なくとも一度成功した提出があるものだけを残すなどの基準で品質を担保します。長すぎる軌跡は訓練時に32Kトークンに切り詰める処理が行われます。これらの軌跡を使ってQwen3-4BとQwen3-8BをSFT(教師付き微調整)で訓練したところ、MLGymの13課題の多くで性能向上が確認されました。
この手法が重要なのは、知識の詰め込みだけでなく「やってみる経験」をAIに与えられる点です。論文は、プログラムの編集やデバッグ、繰り返しの評価といった研究に近い一連の行動を含む軌跡を大量に作れることを示しています。こうした経験に基づく訓練は、最終成果物だけで学ぶよりも現実的な研究プロセスを学ばせやすく、ベンチマークでの改善という形で効果が示されました。
重要な限界も明示されています。全ての合成タスクが成功するわけではなく、生成過程や実行環境での失敗が頻発します。クラスタやコンテナの不安定さ、複雑なスターターコードを要するタスク(例:MS-COCO関係)では改善が見られないケースがありました。またこの研究で用いた教師はGPT-5、学生はQwen系モデルであり、結果はMLGymという特定のベンチマーク上の評価に基づいています。論文自身も他ベンチマークへの適用には追加の検証が必要だと述べています。