すべての人に一次情報を
この論文は、画像と言葉を同時に扱う「統一マルチモーダルモデル」で、従来必須と考えられてきた事前学習済みの視覚エンコーダーを捨て、ピクセルそのものの埋め込み(pixel embeddings)で理解と生成を行う新しいモデルTuna-2を示します。著者らは、単純なパッチ埋め込み層で生
この論文は、1枚の写真からカメラを動かして歩き回るような映像を生成し、それを3Dに変換して大規模で「探検可能」な3D世界を作る仕組みを示します。要点は、長い移動や視点の戻り(同じ場所を再訪問)でも見た目や形が崩れにくい動画を作り、それを実時間のレンダリングやシミュレーションで使え
研究チームはLyra 2.0という新しい仕組みを示しました。これは一枚の写真とユーザーが指定するカメラの動きから、長時間にわたって一貫性のある動画を生成し、それを自動で3Dシーンに変換する技術です。要点は、見た目の忠実さを保ちつつ、後で使える3D資産(点群に近い3Dガウシアンやメ
この論文は、画像と言葉を同時に扱う「エージェント型マルチモーダルモデル」が外部ツールを過剰に使ってしまう問題に取り組みます。研究者らは、ツール呼び出しをただ罰する従来の強化学習がうまく働かないことを指摘し、正答を重視する道と効率(ツールの節約)を分けて学ぶ新しい枠組みHDPO(H
大きな視覚言語モデルは、画像にない物を「いる」と書いてしまうことがあります。そうした誤り(オブジェクト・ハルシネーション)を見つけて減らすために、本論文はHaloProbeという新しいベイズ的(確率的)な検出・緩和枠組みを提案します。HaloProbeは、モデル内部の信号と生成さ
この論文は、3次元(3D)幾何学的コンピュータビジョン向けのコード生成能力を測る新しいベンチマーク「GeoCodeBench」を紹介します。目的は、研究者が論文や実装の説明を読んで実際に動くコードを書くのと同じ状況で、大規模言語モデル(LLM)がどれだけ信頼できるコードを生成でき
この論文は、腹部外傷のCT(コンピュータ断層撮影)画像に対する「基盤モデル」が臨床でどのように振る舞うかを調べています。研究者らは、まれで死亡率の高い外傷性腸損傷の検出を題材に、基盤モデルが「陰性」ケースの多様性(他の臓器損傷が混ざること)に弱いかを検証しました。結論は、基盤モデ
この論文は、既に学習済みの視覚基盤モデル(Vision Foundation Models, VFMs)を再学習せずに、複数の画像解像度から得た特徴を統合して性能を上げる手法「Multi-Resolution Fusion(MuRF)」を提案します。低解像度は全体の意味(物体のカ
この論文は、動画から将来の「潜在(ラテント)表現」を予測する世界モデルを、視覚と言語を結びつけた大規模モデル(Vision–Language Model、VLM)で補強する方法を示します。提案手法の名前はThinkJEPAです。短い観測窓で密にフレームを予測する従来の潜在世界モデ
この論文は、超音波(エコー)画像の「質感」を学ぶ新しい枠組みを提案します。超音波画像は音波の散乱や反射など物理的な性質でできる独特の模様(テクスチャ)が特徴です。研究者たちは、自然画像向けに作られた大規模モデルがこうした超音波特有の性質を十分に扱えていない点に着目しました。そこで