GeoCodeBench:3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6%
この論文は、3次元(3D)幾何学的コンピュータビジョン向けのコード生成能力を測る新しいベンチマーク「GeoCodeBench」を紹介します。目的は、研究者が論文や実装の説明を読んで実際に動くコードを書くのと同じ状況で、大規模言語モデル(LLM)がどれだけ信頼できるコードを生成できるかを定量的に評価することです。著者らが示す主要な結果は、評価した8つの代表的モデルのうち最良のGPT‑5でも合格率は36.6%にとどまり、実用的に信頼できる水準には遠い、という点です。
研究チームは実際の研究パイプラインから関数の骨組み(fill-in-the-function)を抽出して問題を作りました。まず自動ツールで公式リポジトリから候補関数を提案し、人間の専門家がその中から核心的な3D幾何要素を慎重に選びます。各問題には多様でエッジケースを含むユニットテストを用意し、サンドボックス環境で実行して正誤を自動判定します。テストは退化した幾何配置や境界条件、期待される不変性(性質が保たれること)などを含むように設計されています。データ流出を最小限にするために近年のトップ会議の論文から慎重に取り出している点も報告されています。
タスクは二層の階層で整理されています。第一に「一般的な3D能力」(座標変換や投影、法線計算などの基礎的演算、力学や光学に基づく解析式の実装)。第二に「研究能力」(論文で提案された新しいアルゴリズムの実装や、既存の演算を創造的に組み合わせる“幾何学的ロジックの配線”)。両者のスコアは正の相関がありますが、研究寄りのタスクの方が明らかに難易度が高いと報告されています。
評価からは興味深い点も出ました。あるケースではモデルが論文の実装と異なるが数学的に正しい別解を作り、すべてのユニットテストに合格する「創造的な正解」が見られます。一方で、与える文脈(論文全文)を増やせば必ず性能が上がるわけではなく、Method(手法)節までに切り詰めた入力の方が全文より良い統計的結果を示したというコンテキスト刈り取りに関する実験結果も報告されています。これは長い科学文献を一貫して理解することの困難さを示しています。
このベンチマークが重要なのは、信頼できる3D科学コードが書けるようになれば研究のやり方が変わる可能性があるためです。ただし論文にも重要な注意点があります。GeoCodeBenchは最近の代表的論文から厳選した問題群ですが、すべての分野や実装様式を網羅するわけではありません。ユニットテストに合格することは強い指標ですが、それだけで実運用での完全な正しさや健全性を保証するものではありません。著者らは現状のギャップを示すことで、3D幾何ビジョンに特化したより信頼できるコード生成の研究を促すことを狙っています。