用于空中-地面机器人系统中语义导航和操控的层次化语言模型

《Advanced Intelligent Systems》:Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System

【字体: 时间:2025年10月28日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  提出了一种分层多模态框架,结合LLM和VLM,通过GridMask增强的VLM实现高精度空间定位,实验验证其在仿真和现实环境中有效支持异构机器人协作任务。

  这项研究提出了一种基于多模态语言模型的分层框架,旨在解决异构多机器人系统在复杂任务中协调合作的挑战。异构多机器人系统由具有不同功能和能力的机器人组成,例如空中机器人和地面机器人,这种系统在需要多方面协同的复杂任务中展现出巨大的潜力。然而,传统的控制和协调方法往往依赖于静态模型或特定任务的规则,缺乏跨任务和跨环境的泛化能力。因此,研究提出了一个融合大语言模型(LLM)和视觉语言模型(VLM)的分层框架,从而实现了从高层语义推理到底层执行的衔接,增强了系统的灵活性和适应性。

在该框架中,LLM负责任务分解、全局语义地图构建以及高层决策,而VLM则提供视觉感知和语义定位,其中引入的GridMask显著提升了VLM的空间精度,从而实现了可靠的细粒度操作。空中机器人利用全局地图生成语义路径,指导地面机器人的局部导航和操作,即使在目标缺失或环境不确定的情况下,也能确保系统间的稳健协作。该框架通过大量的仿真和现实世界实验进行验证,展示了零样本泛化能力、语义导航的鲁棒性以及在动态环境中的可靠操作。这是目前首个将基于VLM的感知与LLM驱动的推理相结合,实现全局任务规划和执行的异构空中-地面机器人系统。

### 系统架构与功能层设计

该分层框架包含三个主要功能层:高层推理层、中层感知层和底层执行层。高层推理层利用LLM将自然语言指令分解为可执行的子任务,并生成全局语义地图,为后续任务规划提供基础。中层感知层通过VLM对空中采集的图像进行处理,提取语义信息并实现精确的空间定位。底层执行层则负责根据高层推理和中层感知的结果,执行具体的运动函数,如导航和操作。

在高层推理层中,LLM被设计为一个任务分解器和分配器,它能够理解自然语言指令,并将其映射为特定机器人可以执行的子任务。同时,LLM还能够根据执行过程中收集的局部语义信息,构建和更新全局语义地图,从而支持长时序任务的规划和执行。该层的设计强调了任务的模块化和可扩展性,使其能够适应不同类型的机器人系统。

中层感知层的核心在于VLM的使用,VLM能够从图像中提取语义信息,包括物体的位置、方向和类别。为了提升VLM的空间定位精度,研究引入了GridMask,这是一种基于网格的视觉提示方法,能够将密集的坐标网格叠加在空中机器人的俯视图像上,从而增强其对空间位置的感知能力。通过使用GridMask进行微调,VLM在相同规模的数据集上实现了78%的定位误差减少,显著提升了系统的感知能力。这种基于GridMask的微调方法不仅提高了VLM的语义理解能力,还使其在动态环境中能够准确地识别和定位物体,为任务执行提供了可靠的感知支持。

底层执行层则负责将高层推理层生成的任务分解转化为具体的运动函数。该层通过预编程的运动函数实现任务执行,这些函数包括空中机器人生成全局路径、地面机器人进行局部导航和操作等。在执行过程中,空中机器人会根据全局语义地图生成最优路径,并实时更新路径以适应环境变化。地面机器人则利用空中机器人提供的语义信息,进行局部导航和操作,例如通过定位目标物体、避开障碍物和调整方向以确保稳定运行。这种分层设计使得系统能够在不同任务中保持高度的适应性和鲁棒性。

### 系统优势与创新点

该研究的主要创新点在于提出了一个分层的多模态语言模型框架,该框架不仅提升了异构机器人系统的任务执行能力,还增强了其在复杂环境中的适应性。首先,通过将LLM与VLM结合,系统能够将高层次的自然语言指令转化为具体的机器人操作,实现了从抽象任务到具体执行的无缝衔接。其次,GridMask的引入显著提升了VLM的空间感知能力,使得机器人能够在没有深度感知的情况下实现精确的语义定位和操作。这不仅提高了系统的性能,还减少了对特定任务的依赖,从而增强了其泛化能力。

此外,该研究还强调了系统的模块化和可扩展性。高层推理层的设计使得系统能够适应不同类型的机器人,而中层感知层和底层执行层的分离则提供了更灵活的控制方式。这种设计不仅支持任务分解和分配,还允许系统在面对新任务时进行快速适应。例如,系统能够在没有额外训练的情况下,处理新的物体类别和任务组合,这在动态环境中尤为重要。

### 实验验证与性能评估

为了验证该框架的有效性,研究进行了广泛的仿真和现实世界实验。在仿真环境中,系统被测试其在零样本情况下的泛化能力,包括处理新的物体类别、空间布局和任务复杂度。实验结果显示,系统能够成功地在不同场景中进行任务执行,例如将字母“L”移动到“O”立方体的前面,或在不移动“B”立方体的情况下组装“OK”等任务。这些结果表明,系统不仅具备较强的语义理解能力,还能够处理复杂的任务分解和执行。

在现实世界实验中,系统被部署在异构空中-地面平台中,包括Unitree Go1四足机器人和一个搭载SLAM和俯视摄像头的自定义四旋翼无人机。实验验证了系统的鲁棒性,特别是在动态干扰、操作干扰和感知变化等复杂场景下的表现。例如,在动态干扰实验中,系统能够通过更新全局语义地图和调整路径,实现对突发障碍物的动态避让。在操作干扰实验中,当地面机器人尝试附着物体时,目标物体被人工移除,系统能够检测到这一失败,并自动回滚并重新尝试,确保任务的顺利完成。在感知变化实验中,系统在不同的光照条件和摄像头视野变化下仍能保持稳定的物体识别能力,从而完成任务。

此外,研究还评估了系统的性能,包括任务分解的准确性、语义地图的构建能力和任务完成的可靠性。实验结果显示,系统在任务分解和语义地图构建方面表现良好,任务完成率达到了80%。尽管在某些情况下,系统可能会出现感知误差或语义歧义,但其通过多模态信息的融合和分层处理,能够有效减少这些误差对任务执行的影响。例如,系统在识别物体时,能够通过多个局部地图的交叉验证,确保语义标签的准确性,从而提高整体任务的成功率。

### 未来发展方向与挑战

尽管该研究取得了显著的成果,但仍然存在一些挑战和改进空间。首先,在极端拥挤的环境中,感知误差和路径规划的优化可能会导致路径不理想或碰撞增加。因此,未来的研究可以探索更精确的感知方法,例如结合分割增强的识别技术,以提高物体定位的准确性。其次,当前的系统依赖于云端API进行推理,导致推理延迟较高,约为3秒/步骤。为了提高系统的实时性,可以考虑在本地部署轻量级模型或使用更高效的推理方法,从而减少延迟。

此外,系统还可以进一步与端到端的视觉-语言-动作(VLA)模型结合,例如基于扩散Transformer的规划器,以实现从高层推理到底层执行的无缝衔接。这将减少对预定义运动函数的依赖,提高系统的适应性和灵活性。未来的研究还可以探索如何在不同类型的机器人系统中扩展该框架,例如在水下机器人或混合机器人系统中实现类似的多模态任务规划和执行。

总之,这项研究提出了一种新的分层多模态语言模型框架,通过将LLM的高层推理与VLM的中层感知相结合,实现了异构空中-地面机器人系统的协同操作。该框架不仅提高了系统的任务执行能力,还增强了其在复杂环境中的适应性和鲁棒性,为未来多机器人协作任务的实现提供了新的思路和技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号