MathNet:30,676件のオリンピアード級問題で数学的推論と検索を評価する大規模データセット
研究者らはMathNetという大規模で多言語・マルチモーダルな数学データセットとベンチマークを公開しました。MathNetにはオリンピアード(競技数学)レベルの問題が30,676問収められており、17言語、47か国、約4十年分の大会から専門家が作成した解答が付いています。目的は「問題を解く能力」と「数学的に等しい問題を見つける能力(数学認識型検索)」の双方を厳密に評価することです。データとベンチマークは公開されており、誰でも利用できます(mathnet.mit.edu)。
具体的には三つの主要部分を用意しています。まずMathNet-Solveは30K問のコアコーパスで、LaTeX表記と自然文の問題文、専門家による高品質な解答とメタデータを含みます。次にMathNet-Retrieveは検索評価用のデータセットで、10Kの「アンカ―問題」から派生させた約40Kの合成問題を含み、それぞれに「数学的に等しい正例」と「混同しやすい難しい負例(ハードネガティブ)」が付与されています。さらにMathNet-RAGは70問のIMO(国際数学オリンピック)級の問題を用いた、検索を組み合わせた問題解決(retrieval-augmented generation)評価用のセットです。
ベンチマークの狙いは、単に語彙や表現の類似性を見る通常の検索とは違って、式の変形や記法の違いを超えて「同じ数学的主張」を認識できるかを測ることです。論文は具体例として、x^2+y^2=1 が √(a^2+b^2)=1 や単位ベクトルの表現(ベクトルのノルムが1であること)と数学的に等価である一方、x+y=1 とは異なると説明しています。既存の埋め込み(ベクトル化)検索モデルは変数名や表記の違いに敏感で、真に等価な問題をうまく引き当てられないことが示されています。
実験結果では、最先端の生成モデルでも完全には解けないことが明らかになりました。たとえばGemini-3.1-Proで78.4%、GPT-5で69.3%という報告があり、いずれも課題が残ります。埋め込みモデルは等価問題の検索に苦戦しました。また、検索で見つかった関連問題を使う「検索補助生成(RAG)」の効果は検索の質に強く依存します。よい検索結果を使えた場合、DeepSeek‑V3.2‑Specialeは最大で約12%の性能向上を示し、ベンチマークで高い得点を記録しました。論文は27種類の最先端モデルをこれらのタスクで比較し、自動採点と専門家による採点の両方を用いて評価しています。
重要な注意点として、MathNetはオリンピアード級の問題に特化しています。したがって小学校レベルや応用数学、定理証明の別分野を代表するわけではありません。また、検索の困難さや生成モデルの限界は実験で示された通りで、RAGの改善はまず検索能力の向上が前提になります。最後に、ここでの説明は提供された論文抜粋に基づく要約です。元データとベンチマーク、さらに詳細な実験結果は公開サイトで確認できます。