arXiv News

すべての人に一次情報を

法務

プライバシーポリシー利用規約

© 2026 arXiv News

arXiv News

英語日本語

言語を切り替え

英語日本語
アカウントを読み込み中…

すべての人に一次情報を

最新
AVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク多数のログの中から“つながった”危険行為を見つける新しい方法:MeerkatThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法大規模言語モデルの「道徳的思考の軌跡」を可視化した研究:途中の倫理枠組みの切り替えが多いことを発見テキストだけで学んだ言語モデルはどれだけ“音”を理解するか?AKB-2000で比較した総合評価FinTradeBench:企業の基礎データと株価の動きを同時に問う新しい金融推論ベンチマーク長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワークSAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組みAVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク多数のログの中から“つながった”危険行為を見つける新しい方法:MeerkatThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法大規模言語モデルの「道徳的思考の軌跡」を可視化した研究:途中の倫理枠組みの切り替えが多いことを発見テキストだけで学んだ言語モデルはどれだけ“音”を理解するか?AKB-2000で比較した総合評価FinTradeBench:企業の基礎データと株価の動きを同時に問う新しい金融推論ベンチマーク長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワークSAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組み

今日の記事

2026年5月1日金曜日
すべて人工知能機械学習自然言語処理コンピュータビジョンロボティクス暗号物理学数学
人工知能注目

AVISE:言語モデルの「脱獄」脆弱性を自動で探すためのオープンな評価フレームワーク

この論文は、AIシステムの安全性を体系的に評価するためのフレームワーク「AVISE(AI Vulnerability Identification and Security Evaluation)」を提案します。AVISEはモジュール式でオープンソースです。研究者や実務者がAIモ

2026年4月23日JA2分
記事全文を読む

最新の記事

人工知能
2026年4月14日

多数のログの中から“つながった”危険行為を見つける新しい方法:Meerkat

AIの会話や実行の記録(トレース)は大量に残ります。問題は、危険な行為の証拠が一つの記録だけでは見えないことがある点です。たとえば、ランサムウェアの攻撃では「ファイルを暗号化するコードを書く」「復号のために金を要求する文面を書く」など複数の別々の会話が組み合わさって初めて危険だと

JA
2分
人工知能
2026年3月24日

ThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法

この論文は、動画から将来の「潜在(ラテント)表現」を予測する世界モデルを、視覚と言語を結びつけた大規模モデル(Vision–Language Model、VLM)で補強する方法を示します。提案手法の名前はThinkJEPAです。短い観測窓で密にフレームを予測する従来の潜在世界モデ

JA
2分
人工知能
2026年3月23日

大規模言語モデルの「道徳的思考の軌跡」を可視化した研究:途中の倫理枠組みの切り替えが多いことを発見

この論文は、大規模言語モデル(LLM)が倫理的判断を下す際に、最終結果だけでなく途中の「どの倫理の枠組みを使ったか」という流れを追うことに着目しています。著者は「moral reasoning trajectories(道徳的思考の軌跡)」と名付けた手法を導入し、推論の各中間ステ

JA
2分
広告
自然言語処理
2026年3月20日

テキストだけで学んだ言語モデルはどれだけ“音”を理解するか?AKB-2000で比較した総合評価

この論文は、テキストだけで事前学習された大規模言語モデル(LLM)がどれだけ聴覚に関する知識を内包しているかを調べ、その違いが音声を扱う大規模音声言語モデル(LALM)の性能にどのように影響するかを評価した研究です。著者らは三つの異なる評価設定を使い、モデルの「耳の良さ」を直接測

JA
2分
人工知能
2026年3月20日

FinTradeBench:企業の基礎データと株価の動きを同時に問う新しい金融推論ベンチマーク

この論文は、会社の会計情報と株価の時系列データの両方を使って金融判断ができるかを調べる新しいベンチマーク、FinTradeBenchを紹介します。ベンチマークはNASDAQ‑100の銘柄を対象に、2015年から2025年の10年分を使って作られ、合計1,400問で構成されています

JA
2分
自然言語処理
2026年3月14日

長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題

この論文は、科学分野の長い回答(長文レポート)を生成するシステムの評価方法を問い直す研究です。研究者たちは、既存の自動評価法が人間の「どちらが良いか」を比較する単純な手法に頼りすぎていると指摘します。具体的には、ベンチマークScholarQA-CS2を使って、人間のペアワイズ比較

JA
2分
自然言語処理
2026年3月14日

回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集

この論文は、大型言語モデル(LLM)が持つ「特定の誤った推論パターン」を狙って直す方法を示します。研究者は、推論能力を一括で鍛える従来法は非効率で、正しく動く別の推論を壊してしまうことがあると指摘します。そこで「Reasoning Editing(推論編集)」という考え方を導入し

JA
2分
人工知能
2026年3月14日

LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワーク

この論文は、大規模言語モデル(LLM)が欺く行動をどの程度とるかを測るための新しい評価枠組み「LieCraft」を提案します。LieCraftはサンドボックス型の隠れ役割(誰が何の役か分からない)マルチプレイヤーゲームで、モデルに倫理的な立場を選ばせて、長期的な目的を追わせます。

JA
2分
人工知能
2026年3月14日

SAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組み

この論文は、AIが自らの出力を繰り返し改良する「再帰的自己改善」で起きる微妙な“整合性のずれ”(アラインメントドリフト)を監視し、抑える実用的な枠組みを示します。研究者たちはSAHOOと名付けた仕組みを提案しました。SAHOOは三つの補完的な安全措置で働きます。第一にGoal D

JA
2分
次の記事を見る