arXiv News

言語を切り替え

アカウントを読み込み中…

すべての人に一次情報を

最新

Tuna-2：視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデルLyra 2.0：一枚の画像から長く一貫した3D空間を生成する方法Lyra 2.0：一枚の画像から歩き回れる大規模3D世界を作る方法外部ツールを無駄に呼ばない賢いエージェントへ：HDPOとMetisが示す「いつ控えるか」の学び方HaloProbe：視覚言語モデルの「ない物の説明」を確率的に見つけてやわらげる手法GeoCodeBench：3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6%腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増えるMuRF：推論時に複数解像度を融合して視覚基盤モデルの力を引き出す方法ThinkJEPA：視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法超音波画像の「質感」を学ばせる新手法 TUSA が基盤モデルの弱点を埋めるTuna-2：視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデルLyra 2.0：一枚の画像から長く一貫した3D空間を生成する方法Lyra 2.0：一枚の画像から歩き回れる大規模3D世界を作る方法外部ツールを無駄に呼ばない賢いエージェントへ：HDPOとMetisが示す「いつ控えるか」の学び方HaloProbe：視覚言語モデルの「ない物の説明」を確率的に見つけてやわらげる手法GeoCodeBench：3次元幾何ビジョン向けPhDレベルのコード生成ベンチマーク、最良モデルでも合格率36.6%腹部外傷CTでの基盤モデルは同等の識別力を示すが、同時損傷のある陰性例で誤検出が増えるMuRF：推論時に複数解像度を融合して視覚基盤モデルの力を引き出す方法ThinkJEPA：視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法超音波画像の「質感」を学ばせる新手法 TUSA が基盤モデルの弱点を埋める