人間の行動を見て学習して真似をするロボット (Robot see, robot do: System learns after watching how-tos )

2025-04-22 アメリカ合衆国・コーネル大学

Cornell大学の研究チームは、RHyMEと呼ばれるロボット模倣学習フレームワークを開発しました。この手法では、人間の「How‑To」動画を1本だけ観ることで、ロボットが同様の複雑な動作を習得可能です。従来の模倣学習では、人間とロボットの動作様式の違いや完璧な実演の必要性が課題となっていましたが、RHyMEはロボット自身が保持する過去の実演動画から短いクリップを検索・組合せして、「想像上の人間デモ」を生成することで、人間とロボットのミスマッチを克服しています。必要なロボット実演データ量はわずか30分で、従来法に比べタスク成功率が50%以上向上することが確認されました。本成果により、ロボットの学習効率の大幅改善や家庭や産業現場での実用的な応用が期待されます。論文はIEEE国際会議(ICRA 2025)で発表予定で、arXiv上にも詳細な手法が公開されています。

人間の行動を見て学習して真似をするロボット (Robot see, robot do: System learns after watching how-tos )

<関連情報>

実行不一致下でのワンショット模倣 One-Shot Imitation under Mismatched Execution

Kushal Kedia, Prithwish Dan, Angela Chao, Maximus Adrian Pace, Sanjiban Choudhury
arXiv:2409.06615v6  28 Mar 2025

Abstract

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robotexecutable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods for human-robot translation either depend on paired data, which is infeasible to scale, or rely heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically pairs human and robot trajectories using sequence-level optimal transport cost functions. Given longhorizon robot demonstrations, RHyME synthesizes semantically equivalent human videos by retrieving and composing shorthorizon human clips. This approach facilitates effective policy training without the need for paired data. RHyME successfully imitates a range of cross-embodiment demonstrators, both in simulation and with a real human hand, achieving over 50% increase in task success compared to previous methods. We release our code and datasets at this website.

0109ロボット
ad
ad
Follow
ad
タイトルとURLをコピーしました