arXiv News

英語日本語

言語を切り替え

英語日本語
アカウントを読み込み中…

すべての人に一次情報を

最新
長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワークSAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組みツール実行の「領収書」でAIの幻覚を検出する方法——NabaOSが示す低遅延の実用案長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワークSAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組みツール実行の「領収書」でAIの幻覚を検出する方法——NabaOSが示す低遅延の実用案

今日の記事

2026年3月17日火曜日
すべて人工知能機械学習自然言語処理コンピュータビジョンロボティクス暗号物理学数学
自然言語処理注目

長文の研究レポート評価は浅い評価に頼りがち──ScholarQA-CS2で示したメタ評価の課題

この論文は、科学分野の長い回答(長文レポート)を生成するシステムの評価方法を問い直す研究です。研究者たちは、既存の自動評価法が人間の「どちらが良いか」を比較する単純な手法に頼りすぎていると指摘します。具体的には、ベンチマークScholarQA-CS2を使って、人間のペアワイズ比較

2026年3月14日JA2分
記事全文を読む

最新の記事

自然言語処理
2026年3月14日

回路を作り替えて推論ミスだけを直す——REditで言語モデルの推論パターンを選択的に編集

この論文は、大型言語モデル(LLM)が持つ「特定の誤った推論パターン」を狙って直す方法を示します。研究者は、推論能力を一括で鍛える従来法は非効率で、正しく動く別の推論を壊してしまうことがあると指摘します。そこで「Reasoning Editing(推論編集)」という考え方を導入し

JA
2分
人工知能
2026年3月14日

LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワーク

この論文は、大規模言語モデル(LLM)が欺く行動をどの程度とるかを測るための新しい評価枠組み「LieCraft」を提案します。LieCraftはサンドボックス型の隠れ役割(誰が何の役か分からない)マルチプレイヤーゲームで、モデルに倫理的な立場を選ばせて、長期的な目的を追わせます。

JA
2分
人工知能
2026年3月14日

SAHOO:自己改善するAIの「目標ズレ」を監視し、慎重に改善を続ける枠組み

この論文は、AIが自らの出力を繰り返し改良する「再帰的自己改善」で起きる微妙な“整合性のずれ”(アラインメントドリフト)を監視し、抑える実用的な枠組みを示します。研究者たちはSAHOOと名付けた仕組みを提案しました。SAHOOは三つの補完的な安全措置で働きます。第一にGoal D

JA
2分
広告
人工知能
2026年3月13日

ツール実行の「領収書」でAIの幻覚を検出する方法——NabaOSが示す低遅延の実用案

この論文は、外部ツールを呼び出すAIエージェントが出す「幻覚」的な主張を、軽量な検証で現実的に見抜く仕組みを示します。研究者らはNabaOSという枠組みを提案しました。NabaOSは、各ツール呼び出しに対してHMAC(ハッシュベースのメッセージ認証コード)で署名した実行領収書を発

JA
2分