基于固定时间学习自适应动态规划的无人机防撞近最优环绕控制
《IEEE Transactions on Intelligent Transportation Systems》:Anti-Collision Near Optimal Enclosing Control for UAVs: A Fixed-Time Learning-Based ADP Solution
【字体:
大
中
小
】
时间:2025年12月08日
来源:IEEE Transactions on Intelligent Transportation Systems 8.4
编辑推荐:
本文针对存在风扰和障碍物环境下的无人机目标环绕控制问题,提出了一种结合自适应前馈环绕项和防撞最优镇定策略的固定时间学习ADP解决方案。研究通过神经网络预测器实现扰动估计,并设计新型屏障函数将安全约束转化为无约束优化问题。结果表明,该方法能保证无人机在躲避静态/动态障碍物的同时,以近似最优能耗完成目标环绕,且学习过程收敛时间与权重初值无关。
在无人机技术迅猛发展的今天,让无人机能够自主环绕移动目标进行监视、侦察或护航,已成为智能交通和无人系统领域的热点课题。理想情况下,无人机应能精确保持在与目标特定距离的圆形轨道上。然而,现实环境充满挑战:突如其来的风扰会让无人机偏离预定航线,而散布的障碍物更可能引发碰撞风险。传统的环绕控制方法,如李雅普诺夫矢量场导引或循环追踪策略,通常在无障碍物的理想环境下表现良好,但一旦遇到障碍物就显得力不从心。虽然人工势场法等技术能实现避障,但它们往往无法保证控制过程中的能量最优性,且容易陷入局部最优解。另一方面,模型预测控制等优化方法虽然能处理约束,但计算量大,难以实现全局最优。如何在保证安全避障的同时,实现快速、节能的最优环绕控制,成为一个亟待解决的核心难题。
针对这一挑战,来自中北大学和北京航空航天大学的研究团队在《IEEE Transactions on Intelligent Transportation Systems》上发表了一项创新研究。他们巧妙地将自适应动态规划这一强化学习技术,与固定时间收敛理论相结合,为无人机设计了一套“防撞近最优环绕控制器”。该研究的核心目标是让无人机在存在风扰和障碍物的复杂环境中,不仅能智能地避开障碍物,还能以近似最小的能量消耗完成对移动目标的稳定环绕。
为达成这一目标,研究人员主要采用了几个关键技术方法:首先,设计了一个基于神经网络预测器的自适应前馈环绕项,用于准确估计并补偿风扰,引导无人机逼近期望环绕轨道。其次,构建了一个仅含评价网络的ADP结构,通过将描述碰撞风险的屏障函数引入价值函数,将避障这一安全约束问题转化为无约束最优控制问题。最关键的是,他们提出了一种创新的固定时间权重学习律,该学习律由权重误差驱动,并融合了历史数据,使得神经网络的权重能够在预设时间内收敛,且收敛速度不受初始权重选择的影响。
研究人员首先设计了包含神经网络预测器的自适应前馈控制项。仿真结果表明,该组件能够快速准确地估计出时变的风力扰动。如图7所示,估计值能紧密跟踪真实的扰动信号。这使得无人机在面对不同形式(突变、慢时变、快时变)的风扰时,均能表现出强大的鲁棒性,环绕轨迹保持一致。结合公式(13)所设计的控制律,无人机能够有效地逼近并维持在期望的环绕半径附近。
通过将屏障函数融入价值函数,Critic-only ADP成功地协调了避障与环绕维护这两个任务。图5和图10的飞行轨迹显示,无人机在成功环绕移动目标的同时,能够灵巧地避开多个静态和动态障碍物,且其与障碍物之间的相对距离始终大于设定的安全半径(图6),确保了绝对的安全性。与传统的APF方法相比,本文方法在避障过程中产生的环绕偏差更小,动作更为平滑,避免了APF方法因引力和斥力向量平行而可能陷入的局部极小值问题。
本研究最显著的创新点在于其固定时间权重更新律。如公式(39)所示,该学习律利用辅助变量提取权重误差,确保了神经网络权重在固定时间内收敛到其真值邻域内。从图16的权重收敛曲线可以看出,无论初始权重如何设置(条件1或条件2),权重都能在相似的时间内收敛。这与基于梯度下降的Actor-Critic ADP方法形成了鲜明对比,后者的收敛速度严重依赖于初始权重的选择。权重的快速稳定收敛,进一步保证了近似最优控制策略uo能够迅速逼近其最优值uo*,从而实现接近全局最优的控制性能。
与人工势场法以及传统的ADP方法进行定量比较,充分证明了所提方法的优越性。图14显示,本文方法所消耗的控制能量显著低于APF方法。如表V所示,其整体代价函数值(850-861)远低于APF(1062)和AC-ADP方法(912-985)。同时,环绕误差的均方根值(RMSE为1.462-1.465米)也达到了最低。这表明,该方法在确保安全避障和高精度环绕的同时,实现了显著的节能效果,能量消耗比APF方法降低了约18.9%。
本研究成功地为无人机在扰动和障碍物环境下的目标环绕问题,提供了一种新颖的、基于固定时间学习ADP的解决方案。理论分析和大量仿真实验一致表明,该方案能够同时保证环绕任务的精确性、运动过程的安全性和控制能量的近最优性。
其重要意义主要体现在三个方面:首先,在方法学上,通过将安全约束融入价值函数,并在Critic-only ADP框架下实现,巧妙地平衡了避障与最优控制这两个常被权衡的目标,为处理复杂环境下的安全最优控制问题提供了新范式。其次,所提出的固定时间学习律,从根本上克服了传统强化学习算法对初始参数敏感、收敛时间不确定的瓶颈,提高了学习过程的可靠性和实用性。最后,该研究成果在无人系统、智能交通等领域具有广阔的应用前景,例如无人机城市物流配送、区域巡逻监视、多机协同护航等场景,为提升无人系统的自主性、安全性和经济性提供了有力的技术支撑。
未来的研究方向包括将该方法扩展到多无人机分布式协同环绕控制中,以应对移动障碍物等更复杂的场景,并通过建立物理实验平台进行验证,进一步推动其在实际中的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号