ThinkJEPA:視覚と言語の大規模モデルを使って潜在世界モデルの長期予測を強化する手法 | arXiv News