HorizonMath:自動検証でAIの「未解決問題」発見力を測るベンチマーク | arXiv News