arXiv News

すべての人に一次情報を

法務

プライバシーポリシー利用規約

© 2026 arXiv News

arXiv News

英語日本語

言語を切り替え

英語日本語
アカウントを読み込み中…

すべての人に一次情報を

最新
Tuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデルLyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方HaloProbe:視覚言語モデルの「ない物の説明」を確率的に見つけてやわらげる手法GeoCodeBench:3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6%腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増えるMuRF:推論時に複数解像度を融合して視覚基盤モデルの力を引き出す方法ThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法超音波画像の「質感」を学ばせる新手法 TUSA が基盤モデルの弱点を埋めるTuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデルLyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方HaloProbe:視覚言語モデルの「ない物の説明」を確率的に見つけてやわらげる手法GeoCodeBench:3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6%腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増えるMuRF:推論時に複数解像度を融合して視覚基盤モデルの力を引き出す方法ThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法超音波画像の「質感」を学ばせる新手法 TUSA が基盤モデルの弱点を埋める

今日の記事

2026年5月1日金曜日
すべて人工知能機械学習自然言語処理コンピュータビジョンロボティクス暗号物理学数学
コンピュータビジョン注目

Tuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデル

この論文は、画像と言葉を同時に扱う「統一マルチモーダルモデル」で、従来必須と考えられてきた事前学習済みの視覚エンコーダーを捨て、ピクセルそのものの埋め込み(pixel embeddings)で理解と生成を行う新しいモデルTuna-2を示します。著者らは、単純なパッチ埋め込み層で生

2026年4月28日JA2分
記事全文を読む

最新の記事

コンピュータビジョン
2026年4月16日

Lyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法

この論文は、1枚の写真からカメラを動かして歩き回るような映像を生成し、それを3Dに変換して大規模で「探検可能」な3D世界を作る仕組みを示します。要点は、長い移動や視点の戻り(同じ場所を再訪問)でも見た目や形が崩れにくい動画を作り、それを実時間のレンダリングやシミュレーションで使え

JA
2分
コンピュータビジョン
2026年4月15日

Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法

研究チームはLyra 2.0という新しい仕組みを示しました。これは一枚の写真とユーザーが指定するカメラの動きから、長時間にわたって一貫性のある動画を生成し、それを自動で3Dシーンに変換する技術です。要点は、見た目の忠実さを保ちつつ、後で使える3D資産(点群に近い3Dガウシアンやメ

JA
2分
人工知能
2026年4月10日

外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方

この論文は、画像と言葉を同時に扱う「エージェント型マルチモーダルモデル」が外部ツールを過剰に使ってしまう問題に取り組みます。研究者らは、ツール呼び出しをただ罰する従来の強化学習がうまく働かないことを指摘し、正答を重視する道と効率(ツールの節約)を分けて学ぶ新しい枠組みHDPO(H

JA
2分
広告
機械学習
2026年4月8日

HaloProbe:視覚言語モデルの「ない物の説明」を確率的に見つけてやわらげる手法

大きな視覚言語モデルは、画像にない物を「いる」と書いてしまうことがあります。そうした誤り(オブジェクト・ハルシネーション)を見つけて減らすために、本論文はHaloProbeという新しいベイズ的(確率的)な検出・緩和枠組みを提案します。HaloProbeは、モデル内部の信号と生成さ

JA
2分
コンピュータビジョン
2026年4月1日

GeoCodeBench:3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6%

この論文は、3次元(3D)幾何学的コンピュータビジョン向けのコード生成能力を測る新しいベンチマーク「GeoCodeBench」を紹介します。目的は、研究者が論文や実装の説明を読んで実際に動くコードを書くのと同じ状況で、大規模言語モデル(LLM)がどれだけ信頼できるコードを生成でき

JA
2分
人工知能
2026年3月27日

腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増える

この論文は、腹部外傷のCT(コンピュータ断層撮影)画像に対する「基盤モデル」が臨床でどのように振る舞うかを調べています。研究者らは、まれで死亡率の高い外傷性腸損傷の検出を題材に、基盤モデルが「陰性」ケースの多様性(他の臓器損傷が混ざること)に弱いかを検証しました。結論は、基盤モデ

JA
2分
コンピュータビジョン
2026年3月27日

MuRF:推論時に複数解像度を融合して視覚基盤モデルの力を引き出す方法

この論文は、既に学習済みの視覚基盤モデル(Vision Foundation Models, VFMs)を再学習せずに、複数の画像解像度から得た特徴を統合して性能を上げる手法「Multi-Resolution Fusion(MuRF)」を提案します。低解像度は全体の意味(物体のカ

JA
2分
人工知能
2026年3月24日

ThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法

この論文は、動画から将来の「潜在(ラテント)表現」を予測する世界モデルを、視覚と言語を結びつけた大規模モデル(Vision–Language Model、VLM)で補強する方法を示します。提案手法の名前はThinkJEPAです。短い観測窓で密にフレームを予測する従来の潜在世界モデ

JA
2分
コンピュータビジョン
2026年3月20日

超音波画像の「質感」を学ばせる新手法 TUSA が基盤モデルの弱点を埋める

この論文は、超音波(エコー)画像の「質感」を学ぶ新しい枠組みを提案します。超音波画像は音波の散乱や反射など物理的な性質でできる独特の模様(テクスチャ)が特徴です。研究者たちは、自然画像向けに作られた大規模モデルがこうした超音波特有の性質を十分に扱えていない点に着目しました。そこで

JA
2分
次の記事を見る