HERMES++:走行環境の「理解」と「未来形状予測」を一つにした世界モデル
この論文は、自動運転向けの「世界モデル」を改良する研究です。従来は未来の場面を生成する方法と、現在の場面を言語的に理解する方法が別々に発達していました。著者らは、3Dシーンの理解と将来の幾何学的変化(点群として表される形の変化)を一つの仕組みで同時に扱うモデル、HERMES++を提案します。
研究で行った主な工夫は複数あります。まずBird’s-Eye View(BEV、上空から見た鳥瞰図)表現を使って、複数のカメラ画像から空間情報をまとめ、トークン化して大規模言語モデル(LLM、Large Language Model:意味推論が得意な言語モデル)と連携できる形式にします。実装では、マルチビュー画像をクロスアテンションでBEV空間に変換する視覚エンコーダーと、そこからダウンサンプリングしてLLM互換のトークンにする二段階処理を採用しています。さらに「LLM強化ワールドクエリ」と呼ぶ仕組みで理解側の知識を生成側に渡し、「Current-to-Future Link(現在から未来への接続)」で意味情報を未来の幾何学予測に条件付けします。テキスト埋め込みを生成過程に注入する「Textual Injection」や、車両自身の動き(エゴモーション)を分離するための空間特徴の適応調整も導入しています。
幾何学的な一貫性を保つための仕組みも重要です。著者らはJoint Geometric Optimization(結合同時幾何最適化)を導入し、明示的な点群制約(教師データとしての将来点群)と、潜在空間に対する暗黙の正則化を組み合わせて、内部表現が幾何学に沿うように整えています。これにより、単に未来像を作るだけでなく、構造的に首尾一貫した3D予測を目指します。
実験では複数のベンチマークで評価し、有望な結果が示されました。たとえば、3秒先の点群生成タスクでは先行手法DriveXより誤差を8.2%低減しました。シーン理解タスクではOmni-QをCIDEr(生成された記述と参照記述の一致度を測る指標)で9.2%上回ったと報告しています。さらに、学会版からの拡張として、生成誤差を13.7%改善するなどの向上を確認し、モデルとコードは公開予定だとしています。
重要な注意点も挙げられます。論文自身が「統合アプローチの初期で確かな探索(early and solid exploration)」であると述べているように、これは統一的な解の第一歩です。将来の観測に基づく教師信号だけでは構造的一貫性が得にくい問題があり、その対策として最適化手法を導入したとしていますが、実世界の全ての状況で完全に一般化するかはまだ不確かです。ベンチマーク上の改善は明確ですが、実運用に移すにはさらなる検証が必要である点に注意が必要です。