arXiv News

すべての人に一次情報を

法務

プライバシーポリシー利用規約

© 2026 arXiv News

arXiv News

英語日本語

言語を切り替え

英語日本語
アカウントを読み込み中…

すべての人に一次情報を

最新
AIエージェントは価格で情報を集められるか? 取引実験で「複雑さ」が限界を作ることが判明AVISE:AIシステムの脆弱性を自動で見つけるモジュール式オープンソース枠組みAVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワークLLMトレーダーは人間と似た行動を示し、市場バブルを再現するMathNet:30,676件のオリンピアード級問題で数学的推論と検索を評価する大規模データセット多数のログの中から“つながった”危険行為を見つける新しい方法:Meerkat外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増える大型言語モデル(LLM)は経済判断で“人間らしい”誤りをするが、種類によっては合理的になることもあるLiveMedBench:汚染対策と自動ルーブリック評価を備えた医療用ベンチマークAIエージェントは価格で情報を集められるか? 取引実験で「複雑さ」が限界を作ることが判明AVISE:AIシステムの脆弱性を自動で見つけるモジュール式オープンソース枠組みAVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワークLLMトレーダーは人間と似た行動を示し、市場バブルを再現するMathNet:30,676件のオリンピアード級問題で数学的推論と検索を評価する大規模データセット多数のログの中から“つながった”危険行為を見つける新しい方法:Meerkat外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増える大型言語モデル(LLM)は経済判断で“人間らしい”誤りをするが、種類によっては合理的になることもあるLiveMedBench:汚染対策と自動ルーブリック評価を備えた医療用ベンチマーク

今日の記事

2026年5月1日金曜日
すべて人工知能機械学習自然言語処理コンピュータビジョンロボティクス暗号物理学数学
人工知能注目

AIエージェントは価格で情報を集められるか? 取引実験で「複雑さ」が限界を作ることが判明

この論文は、複数の大規模言語モデル(AIエージェント)が、予測市場で売買を通じて分散した私的情報を集約できるかを調べています。研究者は、二者択一の結果に0か1を支払う金融的な「証券」を使い、最後の市場価格が真の値にどれだけ近いか(最後の価格の対数誤差で測定)を情報集約の指標にしま

2026年4月24日JA2分
記事全文を読む

最新の記事

人工知能
2026年4月24日

AVISE:AIシステムの脆弱性を自動で見つけるモジュール式オープンソース枠組み

この論文は、AIシステムのセキュリティ評価を自動化するための枠組み「AVISE(AI Vulnerability Identification and Security Evaluation)」を紹介します。著者たちは、特に言語モデルに対する「ジャイルブレイク」(モデルの安全制約

JA
2分
人工知能
2026年4月23日

AVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク

この論文は、AIシステムの安全性を体系的に評価するためのフレームワーク「AVISE(AI Vulnerability Identification and Security Evaluation)」を提案します。AVISEはモジュール式でオープンソースです。研究者や実務者がAIモ

JA
2分
人工知能
2026年4月21日

LLMトレーダーは人間と似た行動を示し、市場バブルを再現する

この論文は、大規模言語モデル(LLM)で動く自律的なAIエージェントを市場に参加させる実験で、AIの売買行動と市場全体の動きを調べた研究です。研究者は三つの主要な結果を報告します。第一に、個々のAIは人間で知られる行動パターンを示しました。第二に、そうした個別の傾向が集まると、古

JA
2分
広告
人工知能
2026年4月21日

MathNet:30,676件のオリンピアード級問題で数学的推論と検索を評価する大規模データセット

研究者らはMathNetという大規模で多言語・マルチモーダルな数学データセットとベンチマークを公開しました。MathNetにはオリンピアード(競技数学)レベルの問題が30,676問収められており、17言語、47か国、約4十年分の大会から専門家が作成した解答が付いています。目的は「

JA
2分
人工知能
2026年4月14日

多数のログの中から“つながった”危険行為を見つける新しい方法:Meerkat

AIの会話や実行の記録(トレース)は大量に残ります。問題は、危険な行為の証拠が一つの記録だけでは見えないことがある点です。たとえば、ランサムウェアの攻撃では「ファイルを暗号化するコードを書く」「復号のために金を要求する文面を書く」など複数の別々の会話が組み合わさって初めて危険だと

JA
2分
人工知能
2026年4月10日

外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方

この論文は、画像と言葉を同時に扱う「エージェント型マルチモーダルモデル」が外部ツールを過剰に使ってしまう問題に取り組みます。研究者らは、ツール呼び出しをただ罰する従来の強化学習がうまく働かないことを指摘し、正答を重視する道と効率(ツールの節約)を分けて学ぶ新しい枠組みHDPO(H

JA
2分
人工知能
2026年3月27日

腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増える

この論文は、腹部外傷のCT(コンピュータ断層撮影)画像に対する「基盤モデル」が臨床でどのように振る舞うかを調べています。研究者らは、まれで死亡率の高い外傷性腸損傷の検出を題材に、基盤モデルが「陰性」ケースの多様性(他の臓器損傷が混ざること)に弱いかを検証しました。結論は、基盤モデ

JA
2分
人工知能
2026年3月27日

大型言語モデル(LLM)は経済判断で“人間らしい”誤りをするが、種類によっては合理的になることもある

この論文は、大型言語モデル(LLM: Large Language Models)が経済や金融の判断で体系的な心理的偏りを示すかどうかを調べ、もしあればどう直せるかを探る研究です。著者らは認知心理学と実験経済学で使われる質問をそのまま使い、複数の主要なLLMファミリーに対して最も

JA
2分
人工知能
2026年3月27日

LiveMedBench:汚染対策と自動ルーブリック評価を備えた医療用ベンチマーク

この論文は、大規模言語モデル(LLM)を医療現場で安全に使うための評価基準を作る話です。既存の医療ベンチマークは静的で、テストデータが学習データに混入してしまう「データ汚染」や、医療知識の変化に追いつけない「時間的ずれ」の問題がありました。著者らはこれらを減らすために、週次で更新

JA
2分
次の記事を見る