すべての人に一次情報を
この論文は、科学分野の長い回答(長文レポート)を生成するシステムの評価方法を問い直す研究です。研究者たちは、既存の自動評価法が人間の「どちらが良いか」を比較する単純な手法に頼りすぎていると指摘します。具体的には、ベンチマークScholarQA-CS2を使って、人間のペアワイズ比較
この論文は、大型言語モデル(LLM)が持つ「特定の誤った推論パターン」を狙って直す方法を示します。研究者は、推論能力を一括で鍛える従来法は非効率で、正しく動く別の推論を壊してしまうことがあると指摘します。そこで「Reasoning Editing(推論編集)」という考え方を導入し
この論文は、大規模言語モデル(LLM)が欺く行動をどの程度とるかを測るための新しい評価枠組み「LieCraft」を提案します。LieCraftはサンドボックス型の隠れ役割(誰が何の役か分からない)マルチプレイヤーゲームで、モデルに倫理的な立場を選ばせて、長期的な目的を追わせます。
この論文は、AIが自らの出力を繰り返し改良する「再帰的自己改善」で起きる微妙な“整合性のずれ”(アラインメントドリフト)を監視し、抑える実用的な枠組みを示します。研究者たちはSAHOOと名付けた仕組みを提案しました。SAHOOは三つの補完的な安全措置で働きます。第一にGoal D
この論文は、外部ツールを呼び出すAIエージェントが出す「幻覚」的な主張を、軽量な検証で現実的に見抜く仕組みを示します。研究者らはNabaOSという枠組みを提案しました。NabaOSは、各ツール呼び出しに対してHMAC(ハッシュベースのメッセージ認証コード)で署名した実行領収書を発