编辑推荐:
为解决单模态数据局限,研究人员收集厨房任务多模态数据,助力机器人技能学习。
在科技飞速发展的当下,机器人逐渐走进人们的生活,承担各种任务。大型语言模型的出现,让机器人能通过自然语言指令执行任务,看似十分智能。然而,这些模型大多依赖单模态数据,就像一个人只用一种感官去感知世界,“看” 不见物体的触感、“听” 不到周围环境的声音变化,这极大地限制了机器人在复杂环境中的表现。比如在厨房这样充满各种物品和复杂交互的场景中,机器人很难精准地完成打开调料瓶、拧开罐头等精细操作,因为这些任务需要综合视觉、触觉、听觉等多种信息来实时调整动作。
为了突破这一困境,来自同济大学的研究人员开展了一项极具意义的研究。他们聚焦于厨房任务场景,收集多模态感官数据,构建了一个全新的数据集 ——Kaiwu Kitchen dataset。这一研究成果发表在《Scientific Data》上,为机器人技能学习领域带来了新的曙光。
研究人员在此次研究中运用了多种关键技术方法。在数据采集阶段,他们借助光学动作捕捉系统(如 NOKOVTM Optical 3D Motion Capture)精确获取人体全身运动细节;利用多视图 KinectTM 相机收集 RGB 和深度数据;通过 TobiiTM 设备采集眼动追踪数据;使用 DelsysTM EMG 传感器测量肌肉活动;借助 Wise - gloveTM 集成数据手套获取手部运动和握力信息;还在厨房各处及手部安装 MOMATM 麦克风记录声音。为保证数据的准确性和可用性,实验前对设备进行校准,并用定制的 Python 软件同步数据。在数据标注环节,人类专家通过观察 RGB 视频流,对动作进行精细标注,确定动作起止帧并关联其他传感器数据 。
下面来看具体的研究结果:
- 全身多模态数据:该数据集涵盖了人类活动的多视图数据、手部肌肉活动、第一人称视觉、眼动追踪数据、厨房任务场景音频、手部精确动作运动学数据以及动态全身运动捕捉数据等七种模态。相比以往数据集,它更全面地反映了厨房环境中人类的动作,为机器人获取多模态技能提供了丰富的细节数据。
- 细粒度数据标注:研究人员对 680 个感兴趣区域进行了第一人称注意力数据标注,在多视图视频数据中注释了 536,467 个对象,还仔细记录了 14,511 个运动分割事件和 4,254 个左右手精细操作的手势分割事件,以及多模态肌电和动作与手势间的跨模态同步数据。这些精细标注的数据大大提升了数据集在复杂分析中的实用性,有力推动了人机交互(HRI)和具身智能的研究。
- 任务动作分析:通过对不同任务动作的分析发现,像抓取(Grab)和接近(Approach)这类动作在多个任务中广泛存在,是基础动作;而喷雾(Spray)或滚动(Roll)等动作则较少出现,且受特定厨房工具或物体的限制。此外,左右手在执行任务时的时间差异和用力特点不同,右手多进行精度要求高、用力小的工作,左手则更多参与力量型任务,这为机器人双手操作的编程提供了重要参考。
- 关节角度与抓握方式:研究分析了双手在执行相同任务时不同关节角度的变化。发现拇指关节中位角度较低且变化小,而食指、中指、无名指和小指的中位角度较高,其中中指和无名指角度变化尤为明显,掌指关节(MCP)在手部运动中也起着关键作用。研究还对抓握方式进行分类,在 C1 - C17 任务中,蚓状肌抓握(Lumbrical grasp)最为常见,而在涉及挤压洗涤剂和喷洒酒精喷雾的 C11 和 C12 任务中,圆柱抓握(Cylindrical grasp)更符合实际需求。
研究结论表明,该数据集全面且细致地记录了人类在厨房任务中的多模态数据,为机器人技能学习提供了丰富且高质量的数据支持。通过对数据的深入分析,揭示了不同任务中动作的特点、左右手的分工差异、关节角度变化以及抓握方式的规律,这些信息对于优化机器人设计、提升机器人在复杂环境中的操作能力具有重要意义。它有助于机器人更好地模仿人类的动作和行为模式,实现更自然、精准的人机交互,推动具身智能领域的发展,让机器人在未来能够更高效地完成各种复杂任务,为人们的生活带来更多便利。