すべての人に一次情報を
この論文はT2Moという新しい仕組みを示します。T2Moは、テキストと3次元(3D)軌跡の両方を手がかりにして、時間で変化する3D形状(動的メッシュ)を生成します。言葉だけでは動きの指定があいまいになりやすいという問題に対し、点が通る正確な経路を示す3D軌跡を組み合わせることで、
この研究は、1枚の写真から編集可能な3Dシーンを復元する方法を示します。ここでいう「逆グラフィックス」とは、見えている画像を元に元の3D構造や素材、光の当たり方まで推定して、後で再レンダリングや編集ができるかたちに戻すことです。著者らは、従来の特殊な3Dモデルや差分可能レンダリン
この論文は、ハイパースペクトル超解像(HSR)研究で使う合成試験を標準化するソフトウェア基盤「HyperBench」を提案します。研究ごとに異なる実験条件が使われるため、性能の比較や再現が難しくなっている問題を解決しようという狙いです。著者らは、大規模な条件の組み合わせを自動で生
この論文は、視覚と言語を同時に鍛えるのではなく、能力ごとに段階を分けて後訓練することで、視覚と言語モデル(VLM: Vision-Language Model)の性能が上がると報告します。著者らは多くの視覚推論の失敗が「見る力(視覚的知覚)」の誤りに起因することを示し、先に視覚能
この論文は、単に見た目を合成するだけのモデルから、構造や動き、専門知識、因果関係に根ざした「知的な視覚生成」へと研究の焦点を移すべきだと主張しています。最近の視覚生成モデルは写真のようなリアルさや文字表現、指示への従順さ、対話的な編集で大きく進歩しました。しかし空間的な推論、状態
この論文は、自動運転向けの「世界モデル」を改良する研究です。従来は未来の場面を生成する方法と、現在の場面を言語的に理解する方法が別々に発達していました。著者らは、3Dシーンの理解と将来の幾何学的変化(点群として表される形の変化)を一つの仕組みで同時に扱うモデル、HERMES++を
この論文は、画像と言葉を同時に扱う「統一マルチモーダルモデル」で、従来必須と考えられてきた事前学習済みの視覚エンコーダーを捨て、ピクセルそのものの埋め込み(pixel embeddings)で理解と生成を行う新しいモデルTuna-2を示します。著者らは、単純なパッチ埋め込み層で生
この論文は、1枚の写真からカメラを動かして歩き回るような映像を生成し、それを3Dに変換して大規模で「探検可能」な3D世界を作る仕組みを示します。要点は、長い移動や視点の戻り(同じ場所を再訪問)でも見た目や形が崩れにくい動画を作り、それを実時間のレンダリングやシミュレーションで使え
研究チームはLyra 2.0という新しい仕組みを示しました。これは一枚の写真とユーザーが指定するカメラの動きから、長時間にわたって一貫性のある動画を生成し、それを自動で3Dシーンに変換する技術です。要点は、見た目の忠実さを保ちつつ、後で使える3D資産(点群に近い3Dガウシアンやメ
この論文は、画像と言葉を同時に扱う「エージェント型マルチモーダルモデル」が外部ツールを過剰に使ってしまう問題に取り組みます。研究者らは、ツール呼び出しをただ罰する従来の強化学習がうまく働かないことを指摘し、正答を重視する道と効率(ツールの節約)を分けて学ぶ新しい枠組みHDPO(H