2022-07-20 アメリカ合衆国・カーネギーメロン大学
・ カーネギーメロン大学が、人間による日常的なタスクの実行ビデオを見ることで、ロボットにそれらを直接学習・実行させる、新しいロボット学習方法の WHIRL (In-the-Wild Human Imitating Robot Learning) を開発。
・ ワンショット模倣学習の効果的なアルゴリズムである WHIRL では、人間が家庭で行う様々なタスクをロボットが観察し、学習した情報を新しいタスクに一般化する。最初の数回は失敗しても、成功例を積み重ねて迅速に学習を進め、タスクを完了できるようになる。
・ 市販のロボットにカメラと WHIRL を搭載した試験では、電化製品、キャビネットのドアや引き出しの開閉から、鍋の蓋閉じ、椅子の押し入れやゴミ箱からのゴミ袋の取り出しまで 20 種類以上のタスクの学習に成功。ロボットは人間によるタスクの実行を一度だけ観察し、練習と学習を通じてタスクを実行できた。
・ 本研究の成果は、プログラムや訓練を待たずに家庭にロボットを導入する手段を提示するもの。
WHIRL の開発には、3D での挙動の理解・モデル化を可能にしたコンピュータービジョンの進展が貢献。人間の挙動の理解においてこれらのモデルを利用し、WHIRL の訓練を進めた。
・ ロボットにタスクを学習させる現行の模擬学習では、人間がマニュアルでロボットを複数回繰り返し操作してタスク完了方法を教示する。また、強化学習では、ロボットは数万件のサンプルをシミュレーションで学習し、その内容を実環境に適用する。これらの学習モデルは、管理の行き届いた環境下でロボットにシングルタスクのみを教える場合には極めて有効だが、スケールアップと実用が難しい。
・ WHIRL では、人間によるタスク実行のあらゆるビデオからロボットが学習でき、スケールアップが容易でタスク数の制限もなく、実際的な家庭環境での作動が可能。現在、Youtube や Flickr のビデオ観察での訓練を可能にする WHIRL の別バージョンを開発している。
URL: https://www.scs.cmu.edu/news/2022/whirl-robots
<NEDO海外技術情報より>
関連情報
Robotics: Science and Systems 発表論文(アブストラクトのみ)
Human-to-Robot Imitation in the Wild
URL: https://roboticsconference.org/program/papers/026/
Abstract
We approach the problem of learning from watching humans in the wild. While traditional approaches in Imitation and Reinforcement Learning are promising for learning in the real world, they are either sample inefficient or are constrained to lab settings. Meanwhile, there has been a lot of success in processing passive, unstructured human data. We propose tackling this problem via an efficient one-shot robot learning algorithm, centered around learning from a third person perspective. We call our method WHIRL: In the Wild Human-Imitated Robot Learning. In WHIRL, we aim to use human videos to gather a prior over the intent of the demonstrator, advances in computer vision, and use this to initialize our agent’s policy. We introduce an efficient real-world policy learning scheme, that improves over the human prior using interactions. Our key contributions are a simple sampling-based policy optimization approach, a novel objective function for aligning human and robot videos as well as an exploration method to boost sample efficiency. We show, one-shot, generalization and success in real world settings, including 20 different manipulation tasks in the wild.