arXiv News

言語を切り替え

アカウントを読み込み中…

すべての人に一次情報を

最新

AIエージェントは価格で情報を集められるか？取引実験で「複雑さ」が限界を作ることが判明AVISE：AIシステムの脆弱性を自動で見つけるモジュール式オープンソース枠組みAVISE：言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワークLLMトレーダーは人間と似た行動を示し、市場バブルを再現するMathNet：30,676件のオリンピアード級問題で数学的推論と検索を評価する大規模データセット多数のログの中から“つながった”危険行為を見つける新しい方法：Meerkat外部ツールを無駄に呼ばない賢いエージェントへ：HDPOとMetisが示す「いつ控えるか」の学び方腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増える大型言語モデル(LLM)は経済判断で“人間らしい”誤りをするが、種類によっては合理的になることもあるLiveMedBench：汚染対策と自動ルーブリック評価を備えた医療用ベンチマークAIエージェントは価格で情報を集められるか？取引実験で「複雑さ」が限界を作ることが判明AVISE：AIシステムの脆弱性を自動で見つけるモジュール式オープンソース枠組みAVISE：言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワークLLMトレーダーは人間と似た行動を示し、市場バブルを再現するMathNet：30,676件のオリンピアード級問題で数学的推論と検索を評価する大規模データセット多数のログの中から“つながった”危険行為を見つける新しい方法：Meerkat外部ツールを無駄に呼ばない賢いエージェントへ：HDPOとMetisが示す「いつ控えるか」の学び方腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増える大型言語モデル(LLM)は経済判断で“人間らしい”誤りをするが、種類によっては合理的になることもあるLiveMedBench：汚染対策と自動ルーブリック評価を備えた医療用ベンチマーク