LIBERO‑Safety:視覚と言葉で動くロボットの「物理」と「意味」の安全性を測る新しいベンチマーク
この論文は、視覚と言語から行動を作るロボット(Vision–Language–Action、VLA)の安全性を系統的に評価するための新しいベンチマーク「LIBERO‑Safety」を紹介します。研究者たちは、衝突や誤った命令の実行といった現実で危険になりうる状況を自動で作り出し、モデルの物理的安全性と意味的安全性の両方を検査できる仕組みを作りました。彼らは、多様な訓練が衝突を減らす一方で、タスク成功率は軌道生成の品質や命令の解釈のズレに阻まれる、という重要なトレードオフを明らかにしました。
具体的に何を作ったかというと、まず手続きを使って危険な場面を大量に生成する「UBDDL(Unified Behavior Domain Definition Language)」という定義言語を導入しました。これにより視覚や配置、動的障害物、人とロボットの近接など、複数の次元でランダム性を持たせた環境を作れます。難易度は3段階に分かれ、意味的なトラップ(命令の誤誘導)や近接回避といった項目を個別に評価できます。
スケールの問題も解決しました。人がすべて遠隔操作でデモを取ると時間がかかるため、研究チームは「キーポーズ駆動のデータ生成パイプライン」を開発しました。専門家が重要な手の位置(キーポーズ)をいくつか示すと、それをもとに最適化ベースのモーションプランナーが衝突のない動作を合成します。この方法で、視覚や物理条件を大きく変えた上で19,664件の厳密に衝突のないデモンストレーションを作成し、40種類の課題、7,603のシーン、953個のオブジェクト、462の手と物の組合せを含むデータセットを用意しました。
ベンチマークの価値を示すために、研究者たちは8つのVLAモデルと2つの“体現型”基盤モデル(embodied foundation models)を横並びで評価しました。その結果、訓練データの多様性は実行時の衝突を減らす傾向がある一方で、タスクが成功するかは主に「軌道をうまく作れるか」と「命令を正しく理解できるか」に大きく依存することが分かりました。ここでいう意味的なズレとは、モデルが意図と違う行動をとったり、有害な指示を拒否できなかったりすることを指します。
なぜ重要かというと、家庭や共有空間でロボットを使うには、単に物を動かせるだけでなく、人や物にぶつからないことと、危険な命令を実行しないことの両方が必要だからです。LIBERO‑Safetyは、スケール可能なデータ生成手法、大規模で衝突フリーなデータセット、そしてモデルの失敗モードについての洞察を提供します。これらは安全で信頼できるVLAの開発を進めるための基盤になります。
ただし重要な注意点もあります。論文で示された環境は主に手続き的に作ったシミュレーション空間に基づいています。実世界のすべての危険や微妙な条件が再現されているとは限りません。また、示された結果は評価したモデル群に基づくもので、ベンチマーク自体が即座に安全性の問題を解決するわけではありません。研究者も、軌道合成の改善や意味理解の向上が今後の課題であると指摘しています。