EurekAgent:環境を設計することで自律的な科学発見を効率化 — 26サークルパッキングを$11未満で改善
この論文は、いま注目される「大規模言語モデル(Large Language Model, LLM)を使った自律エージェント」の能力を、エージェントをどう指示するかではなく、エージェントが動く環境をどう設計するかに置き換えるべきだと主張します。著者らはこの考え方を「環境エンジニアリング」と呼び、エージェントの探索を促す一方で評価の改ざんや不正な振る舞いを防ぐための仕組みを整えることが重要だと述べます。簡単に言えば、優れた学生を育てるには細かく指示するよりも、実験の自由と監督のための良い研究環境を与えるのが近いという視点です。
研究チームは具体的な実装としてEurekAgentというシステムを作りました。EurekAgentは既存のコマンドライン・インターフェース(CLI)型エージェントをそのまま使いながら、四つの「環境設計」要素で振る舞いを導きます。四つとは、(1)権限設計:実行を制限して評価を隔離する仕組み、(2)成果物設計:ファイルシステムとGitを使った共同作業と履歴管理、(3)予算設計:時間やAPIコストの上限を意識した探索、(4)人の介入設計:監督や介入がしやすいインタフェース、です。これらはエージェントの内部アルゴリズムを変えずに、安全で追跡可能な探索を可能にします。
動作の流れは準備段階(Prepare)と、複数回の提案(Propose)→実装(Implement)という反復ループで進みます。評価は隔離された「隠し評価器」で行われ、Dockerサンドボックスや読み取り専用の成果物アクセスなどで評価の汚染や改ざんを防ぎます。実験の履歴はGitで記録され、ウエブのモニターや対話式の端末(TUI)で人が経過を見て介入できるようになっています。エージェント自身はどのように研究を進めるかは自由に選べますが、環境の制約の下で行動します。
評価では、数学問題やカーネル設計、機械学習のいくつかの課題で従来の最良結果(state of the art)を上回ったと報告しています。特に「26サークルパッキング」と呼ばれる円配置問題では、総API費用が11ドル未満という低コストで新しい最良値を見つけました。論文はまた、ClaudeCodeをCLIエージェントに、GLM-5.1をベースモデルに使った設定で、3つの数学タスクの平均API費用が17ドル未満になったことも示しています。著者らはコードと結果を公開し、環境エンジニアリングを自律的研究エージェントの中心的な研究方向として提案しています。
重要な注意点も示されています。論文は、評価の信頼性や再現性を守るために環境設計が必要だと強調しますが、得られた成果は評価したタスクや用いたベースモデルの能力に依存します。また、環境設計は報酬の不正利用(reward hacking)や証拠の汚染といった問題を減らせますが、完全になくす保証はありません。著者ら自身も、エージェントの能力が向上する中で、どのような環境が最適かを探る研究を今後さらに進めるべきだと結んでいます。