スマートキッチンで人間行動の秘密を解明 (Secrets of human behavior come to light in a (very) smart kitchen)

2025-12-03 スイス連邦工科大学ローザンヌ校(EPFL)

EPFLの神経科学者 Alexander Mathis らのチームは、日常動作の精密解析を目的として「EPFL-Smart-Kitchen-30」データセットを公開した。これは、実際のキッチン環境を高度に計測装置化し、16名の参加者が4種類の料理を準備する様子を、9台のRGB-Dカメラ、HoloLens 2、慣性センサー、加速度計などで多角的に計測した約30時間の高解像度データである。768種類に及ぶ行動ラベルが人手で付与され、1分間に30以上の行動セグメントが記録される精密さを備える。データは、視覚と言語の統合理解、マルチモーダル行動認識、姿勢ベースの動作分割、テキストから動作生成まで、AIモデルの性能を検証する4種のベンチマークに活用されたが、現状のAIは行動認識で約40%の精度にとどまり、課題が大きい。研究の最終目標は、脳卒中患者のリハビリ評価など臨床応用であり、料理行動の変化から日常生活能力や回復度を客観的に測定する新指標の開発が期待されている。また、熟練者の動作理解や専門技能の解析にも応用可能性がある。

<関連情報>

EPFL-Smart-Kitchen: 動画言語モデルにおける動作理解に挑戦するためのエゴ・エキソ・マルチモーダル・データセット EPFL-Smart-Kitchen: An Ego-Exo Multi-Modal Dataset for Challenging Action and Motion Understanding in Video-Language Models

Andy Bonnett, Haozhe Qi, Franklin Leong, Matea Tashkovska, Mahdi Rad, Solaiman Shokur, Friedhelm Hummel, Silvestro Micera, Marc Pollefeys, Alexander Mathis

The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track (2025)    Published: 19 Sept 2025

スマートキッチンで人間行動の秘密を解明 (Secrets of human behavior come to light in a (very) smart kitchen)

Abstract

Understanding behavior requires datasets that capture humans while carrying out complex tasks. The kitchen is an excellent environment for assessing human motor and cognitive function, as many complex actions are naturally exhibited in kitchens from chopping to cleaning. Here, we introduce the EPFL-Smart-Kitchen-30 dataset, collected in a noninvasive motion capture platform inside a kitchen environment. Nine static RGB-D cameras, inertial measurement units (IMUs) and one head-mounted HoloLens~2 headset were used to capture 3D hand, body, and eye movements. The EPFL-Smart-Kitchen-30 dataset is a multi-view action dataset with synchronized exocentric, egocentric, depth, IMUs, eye gaze, body and hand kinematics spanning 29.7 hours of 16 subjects cooking four different recipes. Action sequences were densely annotated with 33.78 action segments per minute. Leveraging this multi-modal dataset, we propose four benchmarks to advance behavior understanding and modeling through 1) a vision-language benchmark, 2) a semantic text-to-motion generation benchmark, 3) a multi-modal action recognition benchmark, 4) a pose-based action segmentation benchmark. We expect the EPFL-Smart-Kitchen-30 dataset to pave the way for better methods as well as insights to understand the nature of ecologically-valid human behavior. Code and data are available at https://amathislab.github.io/EPFL-Smart-Kitchen

1600情報工学一般
ad
ad
Follow
ad
タイトルとURLをコピーしました