テキストと3D軌跡で形を動かす:T2Moによる制御可能な動的3D生成
この論文はT2Moという新しい仕組みを示します。T2Moは、テキストと3次元(3D)軌跡の両方を手がかりにして、時間で変化する3D形状(動的メッシュ)を生成します。言葉だけでは動きの指定があいまいになりやすいという問題に対し、点が通る正確な経路を示す3D軌跡を組み合わせることで、より明確に動きを指定できるようにしています。
研究者たちは、与えられた静的メッシュを入力にして、各頂点がフレームごとにどのように移動するかを表す「頂点ごとの変位」を出力するフィードフォワード(順伝播)型のモデルを作りました。元のメッシュをM0=(V0,F0)とし、時刻tでの変位ΔVtを生成して各フレームMt=(V0+ΔVt,F0)を復元します。テキストは高レベルの意味を与え、3D軌跡は選んだ点がどの経路をたどるかを正確に与える補助信号として使います。軌跡は各点の3D座標列(経路のウェイポイント)として表されます。
技術の要点は「形状に基づく軌跡埋め込み」です。ユーザーが与える軌跡は密なものからまばらなものまでばらつきがあります。そのまま使うと、メッシュ全体に一貫した条件付けを与えにくいので、入力軌跡を形状を意識した固定サイズのトークン集合に変換します。各入力軌跡はメッシュ上の対応点に結びつけられ、残りのアンカー点は最遠点サンプリングで補います。これにより、どんな配置の軌跡でもオブジェクト全体をカバーする安定した条件表現が得られます。生成器の本体はDiTベースの拡散モデルで、形状情報・テキスト埋め込み・軌跡トークンをクロスアテンションで取り込み、時系列の頂点変位を合成します。
なぜ重要かというと、T2Moはユーザーが直感的に動きを指定できる点です。テキストだけで伝わりにくい細かい経路を3D軌跡で示せるため、インタラクティブな調整や動きの編集、既存モーションの転移といった応用が可能になります。論文では、テキストのみの手法や、軌跡で誘導した映像生成を後段で動的メッシュに変換する段階的手法と比べて評価しています。定量評価にはVBenchや軌跡整合性、運動量(motion magnitude)などが使われ、ユーザー調査も行われています。その結果、提示されたプロンプトに従う忠実さや表現の豊かさが向上しつつ、運動の品質は保たれていると報告しています。
留意点もあります。まず論文自身が指摘するように、言語は本質的にあいまいであり、テキストだけで正確な運動を指定するのは難しい点は残ります。ユーザーが与える軌跡は非常に多様で、研究側はそのばらつきに対応する埋め込みを設計しましたが、性能がどの程度まで安定するかは入力の密度や配置に依存します。また本手法は与えられた静的メッシュを時間的に変形(アニメート)する枠組みであり、新しい静的形状を生成する機能とは目的が異なります。論文は種々の比較と人間評価を示していますが、応用範囲や限界の詳細は使用環境や入力の性質によって左右される点に注意が必要です。