arXiv News

言語を切り替え

アカウントを読み込み中…

すべての人に一次情報を

最新

AVISE：言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク多数のログの中から“つながった”危険行為を見つける新しい方法：MeerkatThinkJEPA：視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法大規模言語モデルの「道徳的思考の軌跡」を可視化した研究：途中の倫理枠組みの切り替えが多いことを発見テキストだけで学んだ言語モデルはどれだけ“音”を理解するか？AKB-2000で比較した総合評価FinTradeBench：企業の基礎データと株価の動きを同時に問う新しい金融推論ベンチマーク長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集LieCraft：言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワークSAHOO：自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組みAVISE：言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク多数のログの中から“つながった”危険行為を見つける新しい方法：MeerkatThinkJEPA：視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法大規模言語モデルの「道徳的思考の軌跡」を可視化した研究：途中の倫理枠組みの切り替えが多いことを発見テキストだけで学んだ言語モデルはどれだけ“音”を理解するか？AKB-2000で比較した総合評価FinTradeBench：企業の基礎データと株価の動きを同時に問う新しい金融推論ベンチマーク長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集LieCraft：言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワークSAHOO：自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組み