基于Q学习的多功能雷达自适应驻留调度方法研究

《Journal of Systems Engineering and Electronics》:Adaptive Dwell Scheduling Based on Q-Learning for Multifunctional Radar System

【字体: 时间:2025年12月01日 来源:Journal of Systems Engineering and Electronics 2.1

编辑推荐:

  本文针对多功能雷达系统中驻留调度这一NP难问题,提出了一种基于Q学习的自适应调度算法。研究将调度过程建模为马尔可夫决策过程,通过合理定义状态、动作和奖励函数,在考虑任务重要性、紧迫性和期望执行时间三个准则的基础上,显著降低了任务丢弃率和时间偏移率。仿真结果表明,该算法在综合性能上优于传统启发式算法和群体智能算法,且满足实时性要求,为复杂动态场景下的雷达资源管理提供了新思路。

  
在现代军事和民用领域,多功能相控阵雷达因其灵活的波束指向和多样化的操作模式,已成为防空、探测、目标跟踪等任务的核心装备。然而,随着任务复杂度的不断提升,雷达系统面临着严峻的资源管理挑战——如何在有限的时间资源内,为多个竞争性任务安排最优的执行序列?这就是驻留调度问题的核心所在。
传统的解决方案主要依赖启发式规则或群体智能优化算法。前者虽然计算效率较高,但在复杂动态场景下往往难以获得最优解;后者虽然优化效果较好,但计算耗时严重,无法满足雷达系统的实时性要求。特别是在考虑任务重要性、紧迫性和期望执行时间这三个关键准则时,现有方法更是显得力不从心。
在这项发表于《Journal of Systems Engineering and Electronics》的研究中,恒思宇等研究人员另辟蹊径,将强化学习这一人工智能技术引入雷达资源管理领域。他们创新性地将驻留调度过程建模为马尔可夫决策过程,建立了完整的强化学习框架。该框架的核心在于三个关键设计:状态空间包含雷达时间线占用情况和当前分析任务参数;动作空间定义为任务在雷达空闲时间线上的调度位置(左、右、中);奖励函数则综合考虑了三个调度准则,直接对应调度收益。
特别值得关注的是,研究人员对动作空间进行了巧妙设计。通过将任务调度位置限定在空闲时间线的左侧、右侧或中间,有效压缩了动作空间规模,大大加快了训练收敛速度。这种设计不仅保证了算法的实时性,还通过选择最接近期望执行时间的位置,自然满足了期望执行时间准则。
关键技术方法包括:1)建立马尔可夫决策过程模型,明确定义状态、动作和奖励函数;2)采用Q学习算法,通过ε-贪婪策略平衡探索与利用;3)设计合成优先级函数对任务进行排序;4)使用时间线离散化方法表示雷达状态;5)通过蒙特卡洛仿真进行性能验证。
研究结果部分通过多个维度验证了算法的优越性:
任务丢弃率对比表明,当跟踪目标数量达到50时,Q学习算法才开始出现任务丢弃,显著优于对比算法。特别是在高负载情况下,该算法始终保持着较低的任务丢失水平。
时间利用率方面,Q学习算法能够更充分地利用雷达时间资源,避免了传统调度间隔分析方法产生的时间间隙问题。
命中值比率结果显示,该算法在执行高优先级任务方面表现出色,确保了重要任务的及时完成。
平均时间偏移率是本研究的一大亮点。Q学习算法在该指标上明显优于时间指针法和任务选择-最早开始时间法,这得益于奖励函数中对时间偏移的充分考虑。虽然遗传算法在该指标上略优于Q学习,但其任务丢弃率性能却差很多。
运行时间分析证实,Q学习算法的平均运行时间远低于调度间隔长度(50毫秒),完全满足实时应用需求,而遗传算法的运行时间已超过调度间隔,难以实际部署。
研究表明,基于Q学习的自适应驻留调度算法在任务丢弃率、时间利用率、命中值比率和时间偏移率等多个指标上取得了良好平衡。该算法不仅克服了传统方法在复杂动态环境下的局限性,而且通过合理的动作空间设计,保证了算法的收敛速度和实时性能。这项研究为多功能雷达系统的资源管理提供了一种新的智能化解决方案,特别是在需要综合考虑多个调度准则的复杂场景下,展现出了显著优势。随着人工智能技术的不断发展,这种基于强化学习的自适应调度方法有望在更广泛的雷达应用场景中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号