基于注意力机制多智能体强化学习的抗毁伤无人机集群无碰撞编队控制系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月27日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文提出了一种创新的多智能体强化学习(MARL)方法——基于注意力机制的Cucker-Smale编队算法(ABCS Flocking)，通过领导者引导的注意力机制整合跟随者间空间信息，设计可解释的C-S准则奖励函数，理论证明其能实现最优无碰撞编队状态。该系统在领导者损毁时能自主选择新领导者，显著提升了无人机(UAV)集群的抗毁伤性和任务持续性。

亮点

• ABCS编队采用领导者引导的注意力机制，高效关联跟随者间的空间信息

• 基于Cucker-Smale准则设计的奖励函数具有可解释性

• 理论证明当ABCS奖励最大化时可实现最优编队状态

• 验证ABCS奖励的有界性可用于衡量学习收敛性

• 提出基于ABCS的领导者选择方法，增强系统抗毁伤性

方法

我们将领导者引导的注意力机制引入多智能体强化学习(MARL)框架，开发了名为基于注意力机制的Cucker-Smale编队系统(ABCS Flocking)的新型无碰撞集群控制系统。该系统通过将领导者与跟随者间的差异转化为权重系数，使跟随者能选择性利用其他跟随者的信息。

仿真设置

在Windows 11系统搭载AMD Ryzen 9处理器和NVIDIA RTX 3080显卡的平台上，使用OpenAI gym和PyTorch库实现编队场景。训练过程包含1,000,000个时间步长，每个训练周期为120个时间步，测试场景包含2-5个跟随者的障碍物环境和领导者损毁情境。

结论

本研究提出的ABCS编队系统通过领导者引导注意力模块，使跟随者能利用其他无人机信息实现最优间距保持。ABCS奖励基于Cucker-Smale准则设计，既能避免碰撞又能指示编队收敛状态。当领导者损毁时，系统可依据注意力因子自主选择新领导者，显著提升集群任务持续性。未来将拓展该系统在动态环境中的适应性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号