マルチビュー画像と言語で「教えずに」長い作業をこなすロボット操作法を提案
この論文は、言葉で与えた指示をその場の複数カメラ画像から3次元の実行可能な計画に直して、学習せずに(ゼロショットで)長い手先操作を行う仕組みを示します。ゼロショットとは、新しい物体やタスクに対して追加学習なしで動作することを指します。研究者たちは、端から端まで学習するポリシーを作るのではなく、既存の視覚と言語のモデルを利用して場の情報を段階的に組み上げる方法をとりました。これにより未見の物や工具を使う作業にも対応できる点が売りです。
具体的にはまず、視覚と言語モデル(VLM: vision-language model)を使って、指示に対応する参照フレームでのタスク位置付けと、基本的な2次元の重要点(キーポイント)を各カメラ画像上で得ます。それらの2Dキーポイントを、多視点の画像を組み合わせて3次元に「持ち上げる(リフト)」処理を行います。リフト処理は、各視点で得た位置から三角測量する方法と、参照視点に引いた意味的なカメラ光線に沿って近隣の視点と整合する候補を探す「レイ投票」を組み合わせることで、幾何学的に一貫した3D位置を決めます。
得られた3Dキーポイントはピック&プレース(つかんで移す)や工具を使う作業の両方を扱えます。工具使用では、推定された技能カテゴリに対応する「物体中心の原子的動作(短い既知の行動)」を取り出し、その保存された6次元(位置と向き)の工具軌道を現場の配置に合わせて整列します。一方で精密な把持が必要な場合は、持ち上げた把持キーポイントを基に作業条件に応じた把持可能領域(アフォーダンス)を広げ、腕と手の動作生成器で実行可能な把持と動作の組み合わせを作ります。
実世界での実験では、単一視点のRGB-D(カラー+深度)に基づくグラウンディングや、ファインチューニングしたVLA系ベースラインと比べて、3Dグラウンディング精度と実行の信頼性が向上したと報告しています。さらに、実行中に状態を確認して再計画する閉ループ制御を組み合わせることで、長い工程を連続して行う例を示し、見慣れない物体や新しい工具使用タスクでもゼロショットで実行できる可能性を示しました。
重要な注意点としては、提案手法は複数カメラの較正済みRGB(赤・緑・青)画像を前提としています。つまり多視点撮影とカメラ較正が必要です。また工具使用にはあらかじめ保存された原子的動作や6次元の軌道が使われるため、まったく未知の技能が必要な場合の扱いは限定的です。抽象では実験での改善が述べられていますが、ここに示された要約だけでは定量的な性能や一般化範囲の詳細は読み取れません。