Lyra 2.0:一枚の画像から歩き回れる大規模3D世界を作る方法
研究チームはLyra 2.0という新しい仕組みを示しました。これは一枚の写真とユーザーが指定するカメラの動きから、長時間にわたって一貫性のある動画を生成し、それを自動で3Dシーンに変換する技術です。要点は、見た目の忠実さを保ちつつ、後で使える3D資産(点群に近い3Dガウシアンやメッシュ)を安定して作れることです。
従来の動画生成型の3D作成は「空間の忘却」と「時間的なずれ」という二つの問題で弱ります。空間の忘却はカメラが動いた結果、以前見た場所がモデルの記憶の外に出てしまい、再訪時に構造をでたらめに作ってしまう現象です。時間的なずれは、フレームを順に作る方式で小さな誤差が積み重なり、色や形がだんだん崩れる問題です。Lyra 2.0はこれらに対して二つの工夫で対処します。
一つ目の工夫は「フレームごとの3D幾何情報を情報転送にだけ使う」ことです。ここでは詳細な3D表現を直接生成の条件にするのではなく、過去に生成したフレームから「どの過去画像を参照すればいいか」を見つけ、目標視点との間に密な対応関係(対応点)を作るために使います。見た目の合成自体は学習済みの映像生成モデル(動画を作るAI)の「画素に関する事前知識」に任せます。二つ目の工夫は「自己拡張履歴(self-augmented histories)」という訓練手法です。学習時にモデル自身が一歩だけノイズ除去した予測を条件として与え、現実の生成時に出る自分の誤差分布に慣れさせることで、誤差の蓄積(ドリフト)を伝播させず修正する力を育てます。
生成された長時間動画は、そのままフィードフォワード型の3D再構成パイプライン「3Dガウシアン・スプラッティング(3DGS)」に与えられます。3DGSは高速に点状の表現から高品質なジオメトリと見た目を回復する手法です。Lyra 2.0では、生成動画で生じる小さな多視点不一致を許容できるように、その再構成モデルを生成データで微調整しており、結果としてシミュレーションで使える3Dガウシアンやサーフェスメッシュが得られるとしています。実際の流れは、入力画像→ユーザーが定めるカメラ軌道での動画合成→情報ルーティングと自己拡張で長期一貫性を確保→再構成モデルで3D化、です。
重要な注意点もあります。拡張された動画でも微小な多視点の不一致は残り得ます。こうした不一致は伝統的な再構成手法だと「浮遊物」やノイズの原因になります。そのためLyra 2.0は再構成モデルを生成された動画に合わせて微調整することでこの問題を和らげていますが、不一致を完全に消すわけではありません。また、幾何情報を情報ルーティングに限定する設計は、参照できる過去フレームが不足したり誤った対応が見つかった場合に生成が想像(過度な補完)に頼る可能性がある点も残っています。論文の抜粋は手法の原理と設計を詳述しますが、定量的な性能指標や限界の詳細は抜粋部分には含まれていません。