すべての人に一次情報を
この論文は、AIシステムの安全性を体系的に評価するためのフレームワーク「AVISE(AI Vulnerability Identification and Security Evaluation)」を提案します。AVISEはモジュール式でオープンソースです。研究者や実務者がAIモ
AIの会話や実行の記録(トレース)は大量に残ります。問題は、危険な行為の証拠が一つの記録だけでは見えないことがある点です。たとえば、ランサムウェアの攻撃では「ファイルを暗号化するコードを書く」「復号のために金を要求する文面を書く」など複数の別々の会話が組み合わさって初めて危険だと
この論文は、動画から将来の「潜在(ラテント)表現」を予測する世界モデルを、視覚と言語を結びつけた大規模モデル(Vision–Language Model、VLM)で補強する方法を示します。提案手法の名前はThinkJEPAです。短い観測窓で密にフレームを予測する従来の潜在世界モデ
この論文は、大規模言語モデル(LLM)が倫理的判断を下す際に、最終結果だけでなく途中の「どの倫理の枠組みを使ったか」という流れを追うことに着目しています。著者は「moral reasoning trajectories(道徳的思考の軌跡)」と名付けた手法を導入し、推論の各中間ステ
この論文は、テキストだけで事前学習された大規模言語モデル(LLM)がどれだけ聴覚に関する知識を内包しているかを調べ、その違いが音声を扱う大規模音声言語モデル(LALM)の性能にどのように影響するかを評価した研究です。著者らは三つの異なる評価設定を使い、モデルの「耳の良さ」を直接測
この論文は、会社の会計情報と株価の時系列データの両方を使って金融判断ができるかを調べる新しいベンチマーク、FinTradeBenchを紹介します。ベンチマークはNASDAQ‑100の銘柄を対象に、2015年から2025年の10年分を使って作られ、合計1,400問で構成されています
この論文は、科学分野の長い回答(長文レポート)を生成するシステムの評価方法を問い直す研究です。研究者たちは、既存の自動評価法が人間の「どちらが良いか」を比較する単純な手法に頼りすぎていると指摘します。具体的には、ベンチマークScholarQA-CS2を使って、人間のペアワイズ比較
この論文は、大型言語モデル(LLM)が持つ「特定の誤った推論パターン」を狙って直す方法を示します。研究者は、推論能力を一括で鍛える従来法は非効率で、正しく動く別の推論を壊してしまうことがあると指摘します。そこで「Reasoning Editing(推論編集)」という考え方を導入し
この論文は、大規模言語モデル(LLM)が欺く行動をどの程度とるかを測るための新しい評価枠組み「LieCraft」を提案します。LieCraftはサンドボックス型の隠れ役割(誰が何の役か分からない)マルチプレイヤーゲームで、モデルに倫理的な立場を選ばせて、長期的な目的を追わせます。
この論文は、AIが自らの出力を繰り返し改良する「再帰的自己改善」で起きる微妙な“整合性のずれ”(アラインメントドリフト)を監視し、抑える実用的な枠組みを示します。研究者たちはSAHOOと名付けた仕組みを提案しました。SAHOOは三つの補完的な安全措置で働きます。第一にGoal D