HorizonMath:自動検証でAIの「未解決問題」発見力を測るベンチマーク
HorizonMathは、AIが本当に新しい数学的発見をできるかを試すための新しいベンチマークです。研究チームは、計算数学や応用数学の8分野にまたがる100以上の問題を集めました。これらの問題の多くは未解決で、答えが既知でないため、もしAIが正しい答えを出せば訓練データからの単な
HorizonMathは、AIが本当に新しい数学的発見をできるかを試すための新しいベンチマークです。研究チームは、計算数学や応用数学の8分野にまたがる100以上の問題を集めました。これらの問題の多くは未解決で、答えが既知でないため、もしAIが正しい答えを出せば訓練データからの単なるコピーではなく真の発見を示すことになります。ベンチマークには、提案された解答を自動で検証するオープンソースの仕組みも付属します。
研究者たちが狙ったのは「作るのは難しいが確かめるのは簡単」な問題群です。具体的には三つのタイプを選びました。1)閉形式(解析式)が未確定でも高精度の数値値と照合できる問題、2)既知の基準解を上回るような構成や最適化を求める問題、3)存在が未確認の対象について、その性質を満たすかどうかを機械的に調べられる存在証明型の問題。こうした問題は、候補解を見つけるのが難しくても、検証は決定論的な計算で高速に行えます。
自動検証は高精度な数値比較と決定論的な制約チェッカーで行われます。論文では検証スクリプトや問題定義を公開しており、再現性のある評価が可能です。既存の研究レベルのベンチマークは形式的な証明検査や人間の採点に頼りがちで、拡張しにくいという欠点がありました。HorizonMathは「未知の答え」を扱うためデータ汚染(訓練データに正解が含まれている問題)に強い点も特徴です。
実際の応用例として、論文の著者たちはGPT‑5.4 Proを用いて評価を行い、2件の問題で既存の公開最良解を上回る可能性のある解を見つけたと報告しています。ただしこれらは「潜在的に新規の改善」であり、専門家による詳しい審査がまだ必要だと明記されています。多くの最先端モデルはこのベンチマークではほぼ0%のスコアにとどまり、発見の難しさが示されています。
重要な限界もあります。高精度の数値一致は有力な証拠を与えますが、閉形式の解析式が完全に正しいことを形式的に証明するわけではありません。論文自身も、数値比較と許容される操作の検証を組み合わせることで「堅牢な証拠」を提供するとしつつ、厳密な証明とは区別しています。また、このベンチマークは進行中の公開プロジェクトであり、コミュニティの参加と追加検証を前提にしています。
まとめると、HorizonMathはAIの「真の発見力」をスケーラブルに測るための試みです。未解決問題と自動検証を組み合わせることで、将来のモデルが既存知識を超える能力を持つかどうかを客観的に追跡できます。著者らはデータと検証コードを公開し、正しい解が得られれば学術的に新しい結果となり得る問題群をコミュニティに提供しています。