
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于偏好深度强化学习的工厂环境UGV自主导航:自动课程学习与多目标动态平衡
【字体: 大 中 小 】 时间:2025年08月14日 来源:Engineering Science and Technology, an International Journal 5.1
编辑推荐:
针对工厂环境中无人地面车辆(UGV)导航面临的安全性、效率性和平滑性等多目标冲突问题,研究人员提出了一种基于偏好多目标强化学习(MORL)框架SESN,结合自动课程学习(ACL)算法,实现了单策略下93%导航成功率,为动态环境中的自适应导航提供了新思路。
在智能制造快速发展的今天,工厂环境中的无人地面车辆(UGV)导航面临着前所未有的挑战。传统导航方法往往只能应对单一目标,而实际场景中需要同时兼顾安全性、效率性和运动平滑性等多个相互冲突的目标。更棘手的是,这些目标的相对重要性会随着任务需求而变化——比如在人员密集区域需要优先考虑安全性,而在物流运输时则更注重效率。现有方法大多采用固定权重的奖励函数,无法适应这种动态变化的需求,导致每次任务变更都需要重新训练模型,极大地限制了实际应用价值。
针对这一行业痛点,河海大学机电工程学院的研究团队在《Engineering Science and Technology, an International Journal》上发表了一项创新研究。他们开发了一种名为SESN(安全-效率-平滑导航)的新型框架,通过将人类偏好向量融入状态表示,使单个策略能够动态适应不同的目标权重组合。这项研究的突破性在于,它不仅解决了多目标权衡的难题,还引入了自动课程学习机制来提升训练效率,最终在复杂工厂环境中实现了高达93%的导航成功率。
研究人员采用了三项关键技术:首先是基于激光雷达的环境感知系统,通过二维激光扫描获取180维的环境特征;其次构建了偏好引导的多目标奖励函数,将安全性(rs)、效率性(re)和平滑性(rm)三个目标的奖励进行动态加权;最后设计了自动课程学习算法,通过K-means聚类评估目标点难度,实现从简单到复杂任务的渐进式学习。
在"传感器级状态空间表示"部分,研究创新性地将激光观测分为静态特征(ot)和动态变化(zt),使UGV能同时感知环境结构和运动趋势。"偏好奖励函数设计"中,团队建立了包含碰撞惩罚(rc)、速度限制(rvl)等要素的复合奖励机制,其中安全奖励的权重区间设为[0.45,0.55],效率为[0.35,0.45],平滑性为[0,0.2]。"自动课程学习算法"通过评估成功率、路径长度等指标,自动选择中等难度的新目标点进行训练,显著加快了策略收敛速度。
实验结果令人振奋:在包含15个动态行人的测试场景中,SESN的成功率达到93%,远超DDPG(33%)和TD3(44%)等基准算法。特别值得注意的是,通过调整偏好向量,系统展现出出色的适应性——当安全权重从0.45提升到0.55时,成功率相应从85%提高到93%,而平均任务时间仅从54.11秒增加到55.04秒,证明算法能在保证安全性的同时维持较高效率。
这项研究的价值不仅体现在技术层面,更在于其方法论创新。通过将人类偏好编码为状态空间的一部分,SESN框架实现了单次训练覆盖整个偏好空间的目标,避免了传统方法需要针对每个偏好配置重新训练的弊端。自动课程学习的引入则解决了复杂环境中探索效率低下的问题。从应用角度看,该技术可广泛应用于智能工厂、物流仓储等需要人机协作的场景,为实现安全高效的自动化作业提供了可靠解决方案。未来,结合视觉与激光雷达的多模态感知系统有望进一步提升系统在复杂三维环境中的表现,这将是团队下一步研究的重点方向。
生物通微信公众号
知名企业招聘