GeoCodeBench:3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6% | arXiv News