arXiv News

すべての人に一次情報を

法務

プライバシーポリシー利用規約

© 2026 arXiv News

arXiv News

英語日本語

言語を切り替え

英語日本語
アカウントを読み込み中…

すべての人に一次情報を

最新
テキストと3D軌跡で形を動かす:T2Moによる制御可能な動的3D生成単一画像をBlenderプログラムに変える試み:視覚言語モデルで段階的に「逆グラフィックス」を実行合成試験を標準化するHyperBench:スペクトル超解像の比較をより再現可能に「見る力」を先に鍛えると効果的:視覚と言語を分けた段階的後訓練でVLMの成績が向上視覚生成の新時代へ:見た目だけでなく構造や因果を描くことを目指すロードマップHERMES++:走行環境の「理解」と「未来形状予測」を一つにした世界モデルTuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデルLyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方テキストと3D軌跡で形を動かす:T2Moによる制御可能な動的3D生成単一画像をBlenderプログラムに変える試み:視覚言語モデルで段階的に「逆グラフィックス」を実行合成試験を標準化するHyperBench:スペクトル超解像の比較をより再現可能に「見る力」を先に鍛えると効果的:視覚と言語を分けた段階的後訓練でVLMの成績が向上視覚生成の新時代へ:見た目だけでなく構造や因果を描くことを目指すロードマップHERMES++:走行環境の「理解」と「未来形状予測」を一つにした世界モデルTuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデルLyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方

今日の記事

2026年6月16日火曜日
すべて人工知能機械学習自然言語処理コンピュータビジョンロボティクス暗号物理学数学
コンピュータビジョン注目

テキストと3D軌跡で形を動かす:T2Moによる制御可能な動的3D生成

この論文はT2Moという新しい仕組みを示します。T2Moは、テキストと3次元(3D)軌跡の両方を手がかりにして、時間で変化する3D形状(動的メッシュ)を生成します。言葉だけでは動きの指定があいまいになりやすいという問題に対し、点が通る正確な経路を示す3D軌跡を組み合わせることで、

2026年6月4日JA2分
記事全文を読む

最新の記事

コンピュータビジョン
2026年6月2日

単一画像をBlenderプログラムに変える試み:視覚言語モデルで段階的に「逆グラフィックス」を実行

この研究は、1枚の写真から編集可能な3Dシーンを復元する方法を示します。ここでいう「逆グラフィックス」とは、見えている画像を元に元の3D構造や素材、光の当たり方まで推定して、後で再レンダリングや編集ができるかたちに戻すことです。著者らは、従来の特殊な3Dモデルや差分可能レンダリン

JA
2分
コンピュータビジョン
2026年5月24日

合成試験を標準化するHyperBench:スペクトル超解像の比較をより再現可能に

この論文は、ハイパースペクトル超解像(HSR)研究で使う合成試験を標準化するソフトウェア基盤「HyperBench」を提案します。研究ごとに異なる実験条件が使われるため、性能の比較や再現が難しくなっている問題を解決しようという狙いです。著者らは、大規模な条件の組み合わせを自動で生

JA
2分
自然言語処理
2026年5月20日

「見る力」を先に鍛えると効果的:視覚と言語を分けた段階的後訓練でVLMの成績が向上

この論文は、視覚と言語を同時に鍛えるのではなく、能力ごとに段階を分けて後訓練することで、視覚と言語モデル(VLM: Vision-Language Model)の性能が上がると報告します。著者らは多くの視覚推論の失敗が「見る力(視覚的知覚)」の誤りに起因することを示し、先に視覚能

JA
2分
広告
コンピュータビジョン
2026年5月3日

視覚生成の新時代へ:見た目だけでなく構造や因果を描くことを目指すロードマップ

この論文は、単に見た目を合成するだけのモデルから、構造や動き、専門知識、因果関係に根ざした「知的な視覚生成」へと研究の焦点を移すべきだと主張しています。最近の視覚生成モデルは写真のようなリアルさや文字表現、指示への従順さ、対話的な編集で大きく進歩しました。しかし空間的な推論、状態

JA
2分
コンピュータビジョン
2026年5月3日

HERMES++:走行環境の「理解」と「未来形状予測」を一つにした世界モデル

この論文は、自動運転向けの「世界モデル」を改良する研究です。従来は未来の場面を生成する方法と、現在の場面を言語的に理解する方法が別々に発達していました。著者らは、3Dシーンの理解と将来の幾何学的変化(点群として表される形の変化)を一つの仕組みで同時に扱うモデル、HERMES++を

JA
2分
コンピュータビジョン
2026年4月28日

Tuna-2:視覚エンコーダーを使わず生のピクセルから理解と生成を両立するAIモデル

この論文は、画像と言葉を同時に扱う「統一マルチモーダルモデル」で、従来必須と考えられてきた事前学習済みの視覚エンコーダーを捨て、ピクセルそのものの埋め込み(pixel embeddings)で理解と生成を行う新しいモデルTuna-2を示します。著者らは、単純なパッチ埋め込み層で生

JA
2分
コンピュータビジョン
2026年4月16日

Lyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法

この論文は、1枚の写真からカメラを動かして歩き回るような映像を生成し、それを3Dに変換して大規模で「探検可能」な3D世界を作る仕組みを示します。要点は、長い移動や視点の戻り(同じ場所を再訪問)でも見た目や形が崩れにくい動画を作り、それを実時間のレンダリングやシミュレーションで使え

JA
2分
コンピュータビジョン
2026年4月15日

Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法

研究チームはLyra 2.0という新しい仕組みを示しました。これは一枚の写真とユーザーが指定するカメラの動きから、長時間にわたって一貫性のある動画を生成し、それを自動で3Dシーンに変換する技術です。要点は、見た目の忠実さを保ちつつ、後で使える3D資産(点群に近い3Dガウシアンやメ

JA
2分
人工知能
2026年4月10日

外部ツールを無駄に呼ばない賢いエージェントへ:HDPOとMetisが示す「いつ控えるか」の学び方

この論文は、画像と言葉を同時に扱う「エージェント型マルチモーダルモデル」が外部ツールを過剰に使ってしまう問題に取り組みます。研究者らは、ツール呼び出しをただ罰する従来の強化学習がうまく働かないことを指摘し、正答を重視する道と効率(ツールの節約)を分けて学ぶ新しい枠組みHDPO(H

JA
2分
次の記事を見る