ThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法
この論文は、動画から将来の「潜在(ラテント)表現」を予測する世界モデルを、視覚と言語を結びつけた大規模モデル(Vision–Language Model、VLM)で補強する方法を示します。提案手法の名前はThinkJEPAです。短い観測窓で密にフレームを予測する従来の潜在世界モデルは短期的な動きには強い一方で、長期の意味やイベント単位の手がかりを取り逃がしがちです。ThinkJEPAはその欠点を改善しようとしています。
研究チームが行ったことは二本立てです。まず密なフレーム列を処理して細かい動きや接触などを捉える「JEPAスタイル」の枝を残します(JEPAスタイルとは、潜在表現空間で将来を予測する方式のことです)。次に、フレームをより粗い間隔で均等にサンプリングして長期の文脈や一般知識を引き出すVLMを「シンカー(thinker)枝」として組み込みます。VLMからは複数の層にわたる中間表現を取り出し、それらを階層的なピラミッド表現抽出モジュールでまとめて、潜在予測器に注入しやすい形の「指導信号(ガイダンス)」に変換します。論文はこのガイダンスを層ごとの変調パラメータに写像して予測器に与える設計を示しています。
なぜこれが重要かというと、二つの手法の利点を一つにまとめるからです。密にサンプリングする枝は高速で細かい物理的相互作用の情報を保てます。対してVLMは大きな時間間隔でフレームを見て、物体の属性やイベントの意味、一般常識に基づく推論を提供できます。両者を組み合わせることで、短期の正確な動きと長期の意味的な整合性を両立させ、下流の予測や計画タスクでの有用性を高めることが期待されます。
実験は手の操作(ハンドマニピュレーション)の軌跡予測を中心に行われています。結果として、著者らの手法は強力なVLM単独のベースラインやJEPA予測器ベースラインを上回り、長期のロールアウト(将来予測)の挙動がより安定すると報告しています。論文中ではオープンソースの強いVLMベースライン(Qwen3-VL(Thinking))との比較も示されています。これらの結果は、VLMをそのまま密な予測器として使うよりも「ガイド役」として使う方が有益であることを支持します。
重要な注意点も述べられています。大規模VLMは計算コストが高く、注意機構の制約から処理できるフレーム数が限られるため細かい動きを直接連続予測するのには向きません。また、VLMは最終的に言語生成に向けて表現を圧縮する傾向があり、そのままでは接触の詳細や高速運動などの連続的な物理状態を失いやすいことが指摘されています。さらに、小さな領域特化データセットへ適応する際には、既存の知識が失われる「壊滅的忘却」のリスクもあります。ThinkJEPAはこうした問題を踏まえ、VLMを補助的なガイドとして使う設計を取っていますが、提示されている評価は手の操作データでの結果に基づくため、他のタスクや環境への一般化については慎重な解釈が必要です。