すべての人に一次情報を
研究の主題は日常物体の素材識別です。見た目が似ているガラスとプラスチックのような物は、光学カメラだけでは誤認されやすい問題があります。著者らは、視覚と言語を結び付けたAI(VLM: ビジョン・ランゲージ・モデル)とミリ波レーダーの物理情報を組み合わせる新しい枠組み「VLMater
この論文は、動画から将来の「潜在(ラテント)表現」を予測する世界モデルを、視覚と言語を結びつけた大規模モデル(Vision–Language Model、VLM)で補強する方法を示します。提案手法の名前はThinkJEPAです。短い観測窓で密にフレームを予測する従来の潜在世界モデ