Lyra 2.0:一枚の画像から長く一貫した3D空間を生成する方法
この論文は、1枚の写真からカメラを動かして歩き回るような映像を生成し、それを3Dに変換して大規模で「探検可能」な3D世界を作る仕組みを示します。要点は、長い移動や視点の戻り(同じ場所を再訪問)でも見た目や形が崩れにくい動画を作り、それを実時間のレンダリングやシミュレーションで使える3D資産に変えることです。
研究者らはまず、既存の動画生成が長い探索に弱い理由を整理しました。1つは「空間の忘却」で、カメラが動くと過去に見た場所がモデルの短い記憶ウィンドウから外れてしまい、再訪時に勝手に作り替えられてしまうこと。もう1つは「時間的ドリフト」で、ステップごとの小さな合成誤差が積み重なり、色や形が徐々に歪むことです。これら二つが大規模なシーン生成の主要な障害だと指摘しています。
Lyra 2.0 はこの問題に対して二つの対策を組み合わせます。まず、各フレームごとの3D幾何(形の簡易表現)を保持しますが、それをレンダリングのために直接使うのではなく、過去の関連フレームを取り出すための「情報の経路付け(information routing)」にのみ使います。つまり、どの過去フレームが現在の視点と対応するかを見つけて、密な対応関係を作る役割に限定します。見た目の合成自体は、学習された生成(ビデオ拡散)モデルの“画素の先行知識”(generative prior)に任せます。次に、時間的ドリフトを減らすために「自己増強(self-augmentation)」という学習法を導入しました。訓練中にモデル自身の一段階ノイズ除去予測を条件として与え、実際の運用時に生じる誤差分布に慣れさせることで、誤差を伝播させるのではなく修正するよう学ばせます。
こうした工夫で、Lyra 2.0 はより長い距離を移動する視点でも3D一貫性の高い動画を生成できます。生成した動画は3D Gaussian Splatting(3DGS:3次元ガウシアン・スプラッティング)と呼ばれるフィードフォワード型の再構成パイプラインで微調整して3Dに持ち上げます。論文は、この組合せにより浮遊物(floaters)やノイズなどの問題を抑えつつ、シミュレーションや没入型表示、主体的に動くAI(embodied AI)で使えるメッシュや3Dデータを得られると報告しています。
重要な注意点も示されています。拡散モデルで合成した動画には依然として小さなマルチビューの不一致が残り得ます。こうした不一致は従来の再構成手法だと浮遊物やノイズとなりやすいです。そのためLyra 2.0は3DGSを生成データに合わせて微調整する必要があり、完全に自動で誤りが消えるわけではありません。また、過去の研究のように累積する3D表現をそのまま次に使う手法は、生成アーチファクトが幾何に波及して悪循環を生む問題を抱えます。Lyra 2.0はこの点を回避する設計を取りますが、生成品質や保存するフレームの幾何精度などに依存するため、万能ではないことを論文は認めています。