SVA:迈向语音驱动的视觉-语言-动作模型

《Pattern Recognition》:SVA: Towards Speech-Enabled Vision-Language-Action Model

【字体: 时间:2025年12月18日 来源:Pattern Recognition 7.6

编辑推荐:

  语音驱动的机器人抓取多模态模型研究。提出SVA模型,融合语音、视觉和本体感觉信息,通过CosyVoice提取语音表征,SigLIP处理视觉数据,映射至统一空间后由轻量级MLP网络生成平滑动作序列。在CALVIN和CALVIN-E基准测试中,该模型显著优于现有VLA模型,成功率达92.3%,平均任务步长提升37%。验证了语音交互在机器人具身智能中的可行性,为自然人机协作提供新范式。

  
李凌霄|范家成|倪晓辉|秦素娟|李文敏|高飞
中国北京邮电大学网络与交换技术国家重点实验室,北京,100876

摘要

近年来,机器人操控技术得益于视觉-语言-动作(VLA)模型的进步。然而,大多数现有模型主要依赖于基于文本的指令,这限制了它们在现实世界场景中的应用能力。在本文中,我们提出了一个基于语音的视觉-语言-动作模型,称为Speech-Vision-Action(SVA)模型。该模型是一个新颖的多模态框架,使机器人能够直接遵循口头指令,并同时利用视觉和本体感知信息。我们的方法使用CosyVoice提取语音表示,从SigLIP提取视觉表示。这些表示被映射到一个统一的空间中,并由一个轻量级的动作专家网络进行处理,该网络能够高效生成流畅且连贯的动作序列。动作专家网络由多个MLP模块组成,支持实时机器人控制所需的快速决策。我们在CALVIN基准测试及其增强语音版本的CALVIN-E中评估了SVA的性能。实验结果表明,SVA显著优于现有的最佳模型,在各种任务中实现了更高的成功率以及更长的平均任务长度。这些结果凸显了将语音作为自然直观界面的潜力,为更易于使用的具身智能技术铺平了道路。

引言

随着多模态大规模语言模型(尤其是视觉-语言模型[VLMs] [1]、[2])的发展以及大量机器人数据的可用性,视觉-语言-动作(VLA)模型[3]、[4]已成为机器人操控策略[5]、[6]的有前景的方法。这些模型在处理新对象和多样化的语义指令方面表现出更好的泛化能力,并具备多种新兴功能。例如,基于Prismatic-VLM [8]的OpenVLA [7]是从机器人数据中衍生出来的。它们可以将语言指令和视觉观察作为输入,并生成相应的精确动作[10]、[11]。这些进展极大地推动了具身智能的发展,加速了该领域的进步。
尽管取得了这些进展,但大多数现有的VLA模型仍然主要依赖于基于文本的指令。对于日常的人机交互来说,这种方式不够自然和直观。在实际情况中,用户更倾向于通过语音进行交流,因为相比文本输入,语音交流具有更高的可访问性和效率。然而,将语音集成到VLA模型中的研究仍然不够充分。目前关于语音增强多模态模型的研究主要集中在对话系统或跨模态理解任务[12]、[13]上,而将口语转化为精确机器人动作的挑战尚未得到充分解决。这些局限性提出了一个重要的研究问题:我们应如何将语音信息整合到机器人操控中,以创造更简单、更高质量的用户体验?
为了解决这一问题,本文提出了一种新颖的Speech-Vision-Action(SVA)模型,这是一个专为语音驱动的机器人操控设计的多模态框架。与仅依赖文本输入的现有VLA模型不同,SVA接受口头指令和视觉观察作为输入,并通过一个统一的嵌入空间进行处理。通过CosyVoice提取的语音表示和从SigLIP提取的视觉表示被投影到Stream-Omni LLM的嵌入空间中,实现无缝的多模态对齐。随后引入了一个轻量级的动作专家网络,将这些多模态表示高效地处理成连贯的动作序列。这种设计使SVA能够结合大规模语言模型的推理能力和机器人控制所需的低延迟决策。仿真实验表明,所提出的SVA模型能够基于语音指令生成高质量的动作。此外,SVA能够理解更丰富的指令集,使其适用于复杂场景。
本文的主要贡献如下:
  • 1.
    我们提出了SVA模型,该模型支持语音输入。该模型利用接收到的语音和视觉信息提取多模态条件,并通过动作专家网络直接生成流畅的动作序列。
  • 2.
    我们设计了一个轻量级的动作专家网络,在接收到多模态表示和初始动作后,可以快速为当前时间步生成一个动作块。
  • 3.
    使用语音指令进行了广泛的实验。结果表明,该方法能够基于口语指令生成高质量的动作,达到最佳性能水平。即使在自由语言指令下,其成功率也保持较高。
  • 部分内容片段

    以语音为中心的多模态大规模语言模型

    大规模语言模型[14]、[15]在少量样本和零样本自然语言任务[16]、[17]、[18]中表现出卓越的性能,这主要归功于它们在大量指令遵循数据集上的训练。这些模型[19]在泛化到未见过的任务方面特别有效,使其在从语言理解到推理和生成的各种应用中具有高度的通用性。这项技术在语音领域也获得了显著的发展。

    SVA方法论

    为了提升语音控制能力,我们提出了SVA,这是一个将语音输入与多模态处理相结合的新系统。SVA旨在将音频和视觉信息转换为可执行的指令,然后用于控制机器人的动作。通过处理和结合来自语音和图像的丰富上下文数据,SVA能够实现对机器人动作更直观和精确的控制,从而促进更流畅的交互和任务执行。

    设置

    基准测试 我们选择了广泛使用的模拟平台CALVIN [35]。这是一个专为研究语言条件任务中的学习而设计的开源模拟基准测试。CALVIN基准测试[35]包含34个不同的子任务。它通过筛选五个连续子任务的组合生成1000个独特、合理且多样的指令链。在每个指令链中,代理必须按顺序完成五个子任务,只有完成当前子任务后才能进行下一个子任务。

    结论与局限性

    在这项工作中,我们提出了Speech-Vision-Action(SVA),这是一个用于语音驱动机器人操控的新多模态框架。与主要依赖基于文本的指令的传统VLA模型不同,SVA通过结合语音、视觉和本体感知直接将口语指令转化为机器人动作。通过集成基于CosyVoice的语音嵌入、两个视觉编码器以及基于LLM架构的轻量级动作头,我们的方法实现了强大的多模态处理能力。

    资助

    本项工作得到了中国国家自然科学基金(项目编号62272056、62372048、62371069)的支持。

    CRediT作者贡献声明

    李凌霄:撰写——原始草案、软件开发、方法论设计、数据整理、概念构建。范家成:软件开发、资源协调、数据整理。倪晓辉:撰写——原始草案、验证、数据分析。秦素娟:验证、数据整理。李文敏:软件开发、资源协调、形式化分析。高飞:撰写——审稿与编辑、验证、监督、方法论设计、资金申请。

    利益冲突声明

    作者声明没有利益冲突。

    致谢

    感谢《Pattern Recognition》杂志的编辑和审稿人的审稿和建议。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号