在复杂海洋环境中,利用哈密顿蒙特卡洛算法优化的单船动态路径规划(SAC)
《Ocean Engineering》:Hamiltonian Monte Carlo-enhanced SAC for single-vessel dynamic path planning in complex maritime environments
【字体:
大
中
小
】
时间:2025年10月30日
来源:Ocean Engineering 5.5
编辑推荐:
智能船舶动态环境下高效路径规划与避撞方法研究,提出融合Hamiltonian Monte Carlo优化与改进SAC算法的HPM-PSAC框架,通过引入优先采样机制优化探索效率,重构速度障碍模型纳入船舶动力学特性及COLREGs规则,有效解决传统算法在动态多船交互中的路径振荡、收敛缓慢及避障精度不足问题。实验表明其在复杂风浪与多船场景中保持高稳定性(速度波动<5%)、快速收敛(2000步内稳定跟踪)及安全避让(DCPA>600m)。
近年来,随着海洋技术与自主系统的发展,海上自主水面船舶(Maritime Autonomous Surface Ships, MASS)已经成为现代海洋工程中的关键组成部分。MASS不仅在海洋探索、海上运输以及灾害响应等任务中发挥着重要作用,还因其具备高度的适应性和智能化特性,能够独立执行复杂的操作。与传统有人驾驶船舶相比,MASS在危险和动态的海洋环境中展现出更强的灵活性和效率,具有广泛的应用前景,包括海上运输、应急响应和海洋科学研究等领域。然而,随着MASS操作规模和复杂性的不断增加,实现有效的单船路径规划和多船复杂环境下的动态决策仍然是一个重大挑战。
自主决策算法作为实现MASS高效精准决策的核心技术,已经从传统的启发式方法逐步发展为现代的智能算法。启发式方法,如人工势场法(Artificial Potential Field, APF)和粒子群优化(Particle Swarm Optimization, PSO),可以在已知环境中快速规划安全路径。然而,这些方法在处理动态障碍物和复杂环境约束时表现出一定的局限性,其性能往往会下降。近年来,深度强化学习(Deep Reinforcement Learning, DRL)因其在高维动态环境中的自适应学习能力,受到了广泛关注,并越来越多地应用于路径规划任务。DRL使自主船舶能够通过与环境的持续交互来学习和优化策略,从而适应实时的环境约束和动态目标。特别是在基于策略梯度的演员-评论家方法中,软演员-评论家(Soft Actor-Critic, SAC)方法因其稳定性和收敛性而成为研究的焦点。
尽管如此,当前的方法在实现高效的自主决策过程中仍然面临一些挑战。SAC通常采用高斯分布进行策略建模,虽然在理论上适用于连续动作空间,但在高复杂度的环境中表现出探索能力不足和更新效率较低的问题。尤其是在动态场景中,导航策略需要灵活调整,而高斯策略的各向同性假设常常限制了策略的泛化能力和响应速度。为了解决这些问题,一些研究引入了变分方法或熵正则化项来增强策略的探索能力,但这些方法仍然存在样本效率低和局部收敛的问题。
此外,现有的障碍物建模和避碰策略研究也显示出明显的局限性。虽然一些方法尝试将国际海上避碰规则(Collision Regulations for Preventing Collisions at Sea, COLREGs)纳入强化学习过程中,以提高避碰行为的合规性,但大多数研究仍然依赖于简化的障碍物模型,忽略了MASS在实际操作中所面临的船舶约束,如可实现的速度、非线性运动学特性以及最大加速度限制。这些理想化假设虽然降低了建模复杂度,但也导致了路径缺乏实际可行性,可能引发不可控的高风险操作。此外,在处理动态情况时,对多船状态空间的建模不足,使得策略难以捕捉复杂的协作动态,从而限制了算法的泛化能力和鲁棒性。
为了解决单船自主路径规划中的探索效率和障碍物建模问题,本文提出了一种改进的路径规划方法,该方法结合了哈密顿蒙特卡洛(Hamiltonian Monte Carlo, HMC)优化和SAC算法,称为哈密顿策略模型-优先采样SAC(Hamiltonian Policy Model-Priority Sampling SAC, HPM-PSAC)。该方法通过将船舶的机动性与COLREGs约束纳入速度障碍物(Velocity Obstacle, VO)建模,消除了传统方法中出现的轨迹震荡和不稳定性,同时提升了规划路径的安全性和可操作性。此外,本文还设计了一种面向船舶运动方向的向量状态空间模型,使MASS能够实时准确地监测目标距离,并在多船交互适应中优化避碰决策(即响应其他船舶的动态运动)。通过将传统的高斯策略替换为HMC策略,探索效率得到了提升,收敛速度也显著加快,这是通过引入新的跳蛙运算符实现的。此外,在SAC算法中引入了优先采样机制,显著提高了样本效率和训练稳定性,从而增强了在复杂海洋环境中的实时决策能力。
本文的主要贡献包括以下几个方面:首先,我们通过将SAC中的高斯策略替换为HMC策略,并引入新的跳蛙运算符,优化了演员-评论家框架中的动作选择,从而提高了迭代效率,加快了MASS在识别最优轨迹后的正确路径收敛。其次,我们通过将船舶运动学、机动性以及COLREGs约束纳入速度障碍物模型,并结合新的奖励函数,确保MASS能够在避免多个障碍物的同时保持规划路径的稳定性。最后,我们在静态、动态(多船)和混合障碍物环境中进行了广泛的实验,同时进行了对比和消融分析,验证了该算法在单船自主性方面的有效性。与近端策略优化(Proximal Policy Optimization, PPO)方法的对比表明,所提出的HPM-PSAC方法在路径规划的准确性和多船场景下的适应性方面具有明显优势。
本文的结构安排如下:第二部分描述了相关工作。第三部分介绍了用于多船系统的运动学、COLREGs和机动性约束下的速度障碍物避碰方法。第四部分提出了基于SAC的HMC增强算法。第五部分展示了实验设置并分析了获得的结果,而第六部分总结了结论并提出了未来研究的潜在方向。
在DRL的训练过程中,一个完整的观察空间需要首先被定义,其通常被表示为 $ s = [s_p, s_c]^T $。在本研究中,路径跟踪功能和避碰功能是训练的最终目标。因此,本船(Own Ship, OS)需要通过变量 $ s_p $ 进行信息收集,并通过变量 $ s_c $ 来更新对碰撞风险的检测和对最优速度的选择。通过这种方式,OS能够在动态环境中实时获取必要的信息,从而做出更精确的决策。
为了测试该算法的有效性,我们基于Unity Machine Learning Agents Toolkit(ML-Agents)构建了一个仿真平台。通过Python API实现了PyTorch与Unity3D之间的通信,并在PyTorch中使用了两块NVIDIA GeForce RTX 4090显卡进行训练。图14(a)和(b)分别展示了仿真环境中船舶的第一人称和第三人称视角的截图。
在该仿真平台中,我们设置了多种测试场景,包括静态环境、动态环境(多船场景)和混合障碍物环境。静态环境下的实验结果表明,HPM-PSAC能够在2000个回合后实现稳定的导航,但在4000个回合后仍未能返回到计划路线,而在8000个回合后则能够接近收敛的无碰撞轨迹。动态环境下的实验结果则显示,HPM-PSAC能够保持角速度在±π/3 rad/s范围内,速度波动小于5%,而PPO则表现出明显的速度震荡,DDPG则由于探索效率低下而表现更差。在风浪干扰环境下(风功率为0.104,波浪尺度为5),HPM-PSAC能够保持最近距离避让距离(Distance Circumvention of a Ship, DCPA)大于600米,平均决策延迟为0.38秒,无碰撞发生,并且航向偏差不超过8%。这些结果充分证明了HPM-PSAC在复杂海洋环境中的优越性。
本文的研究结果表明,通过引入HMC优化与SAC算法的结合,MASS的决策系统得到了显著增强。该方法不仅提高了路径规划的准确性和稳定性,还有效避免了碰撞风险,确保了在复杂环境下的安全航行。此外,该方法在处理多船交互时,能够更精确地捕捉其他船舶的动态行为,从而提升整体系统的适应性和协同能力。通过引入优先采样机制,进一步提高了样本效率和训练稳定性,使得算法在复杂海洋环境中的实时决策能力得到了增强。
未来的研究方向包括进一步优化HMC与SAC的结合方式,以提升算法在不同环境下的适应性。同时,也可以探索将其他先进的优化方法与强化学习相结合,以提高路径规划的精度和鲁棒性。此外,针对实际应用中的复杂情况,可以研究更全面的障碍物建模方法,以更好地反映真实海洋环境中的各种约束。最后,也可以考虑将该方法扩展到更广泛的自主系统中,以提升其在多机器人协作中的适用性。
本文的研究为MASS在复杂海洋环境下的自主导航提供了可行的解决方案,同时也为未来相关研究奠定了基础。通过结合HMC优化与SAC算法,我们成功地解决了传统方法在动态环境中的局限性,提升了路径规划和避碰决策的准确性和稳定性。这一成果不仅在理论层面具有重要意义,而且在实际应用中也展现出良好的前景。希望本文的研究能够为海洋自主系统的发展提供参考,并激发更多关于自主决策算法的研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号