连续时间确定性系统的最优脉冲控制与脉冲博弈研究综述:理论前沿与智能计算新范式
《Artificial Intelligence Science and Engineering》:Optimal Impulse Control and Impulse Game for Continuous-Time Deterministic Systems: A Review
【字体:
大
中
小
】
时间:2025年11月12日
来源:Artificial Intelligence Science and Engineering
编辑推荐:
本文聚焦连续时间确定性系统中的最优脉冲控制与脉冲博弈这一前沿课题,系统梳理了从庞特里亚金极大值原理(PMP)、动态规划原理(DPP)等基础理论,到含时滞系统最优控制、脉冲博弈纳什均衡存在性与稳定性分析等核心进展,并前瞻性地讨论了物理信息神经网络(PINNs)等智能计算方法在求解复杂问题中的应用潜力,为相关领域研究者提供了坚实的理论支撑与新颖的解决方案。
在当今工程技术与应用数学领域,如何对系统中发生在离散时间点上的控制行为进行建模与优化,一直是一个充满挑战且极具实际意义的课题。想象一下航天器的推进器点火、金融市场中的大宗交易、或是生物神经网络的脉冲放电,这些行为都具有一个共同特征:控制作用是在瞬间完成的,并引发系统状态的跳跃式变化。这类“脉冲”现象,用传统的连续控制理论难以精确描述,而最优脉冲控制与脉冲博弈理论则为解决这些问题提供了尖端的数学框架。
尽管已有一些教科书和综述分别探讨最优控制和微分博弈,但它们往往将这些主题孤立讨论。本文的一个主要贡献在于构建了一个清晰的叙事脉络,从基本原理一直延伸到脉冲博弈的最新挑战,特别致力于弥合纳什均衡的理论存在性与在该均衡下系统稳定性这一关键但常被忽视的要求之间的差距。此外,本综述的另一个显著特点是,将这些理论讨论与物理信息神经网络(PINNs)等前沿智能计算方法相结合,为求解这些复杂问题提供了前瞻性的视角。
为了系统回答上述问题,研究人员对连续时间确定性系统下的最优脉冲控制与脉冲博弈领域进行了全面的回顾与梳理。研究首先回顾了连续时间系统最优控制理论的基础,包括庞特里亚金极大值原理(PMP)和动态规划原理(DPP)及其联系。接着,文章系统阐述了最优脉冲控制的基础性成果,包括必要条件和充分条件。然后,对脉冲博弈方法进行了体系化梳理,从纳什均衡存在性理论到纳什均衡与系统稳定性之间的联系。进而,总结了包括智能计算方法在内的数值算法。最后,审视了该领域在理论、应用及计算考量方面的新趋势与挑战。
研究人员在综述中运用了系统性的文献回顾与理论分析方法。关键技术方法包括:1) 基于庞特里亚金极大值原理(PMP)和动态规划原理(DPP)的最优控制理论框架构建;2) 针对普通微分系统和含时滞系统的脉冲控制问题,推导其最优性的必要与充分条件;3) 针对零和与非零和脉冲博弈,分析其纳什均衡的存在条件及验证定理;4) 将系统稳定性理论(如李雅普诺夫方法)与博弈均衡分析相结合的新框架;5) 引入物理信息神经网络(PINNs)及其自适应加权变体(AW-EL-PINNs)等智能计算方法求解伴随方程和哈密顿-雅可比-贝尔曼方程(HJB)。
本部分重温了经典最优控制理论。庞特里亚金极大值原理(PMP)由前苏联数学家庞特里亚金领导的研究小组在20世纪50年代发展起来,它为解决最优控制问题提供了一组必要条件。其核心是引入协态变量并定义哈密顿函数,最优控制需在每一时刻最小化或最大化该哈密顿函数。与之几乎同时,贝尔曼在美国提出了动态规划原理(DPP),其核心是价值函数和哈密顿-雅可比-贝尔曼(HJB)方程,它提供了最优控制的充分条件。与PMP的点式最小化不同,DPP得出的最优控制是状态反馈形式,从而构成闭环系统。定理4阐述了两者之间的内在联系,即最优轨迹下的协态变量等于价值函数对状态的梯度。
脉冲控制理论起源于20世纪60年代,是对经典最优控制的扩展,用于处理需要瞬时控制动作的系统。本文给出了最优脉冲控制问题的一般形式,其性能指标包含积分项(连续控制成本)、求和项(脉冲控制成本)和终端项。控制变量集合包括分段连续输入、脉冲幅度、脉冲时刻和脉冲次数。求解最优性的方法主要有两种:一种是导致拟变分不等式的动态规划方法;另一种是更接近经典变分法的思路,即推导出PMP形式的必要条件。定理5给出了更一般最优脉冲控制问题的极大值原理形式的必要条件,包括哈密顿函数的最优性条件、协态动力学、横截条件、脉冲哈密顿条件以及终端时刻的横截条件。
实际系统常常受到时滞的影响,这可能降低系统性能。因此,时滞系统的最优控制近几十年来备受关注。文章考虑了具有时滞和状态脉冲的一般形式的最优控制问题,其中系统动态不仅依赖于当前状态,也依赖于历史状态。定理6利用经典变分法的精神,建立了该最优问题的一组必要最优性条件,包括协态动力学方程(其形式因时滞而变得复杂,同时包含当前和未来时刻的协态变量)、横截条件以及关于脉冲幅度和脉冲时刻的最优性条件。
脉冲博弈是微分博弈的一个子领域,通过融入脉冲控制来形式化具有瞬时状态跳跃的控制策略。其发展主要沿着两个方向:零和博弈与非零和博弈。在控制领域,系统稳定性是系统性能的必要要求。虽然脉冲系统的稳定性分析已取得显著进展,但在最优控制框架和微分博弈框架下的稳定性理论相对发展不足。仅仅建立鞍点或纳什均衡的存在性对于实际应用是不够的,同样必须保证系统在这些均衡点附近保持稳定。因此,推进脉冲微分博弈的研究需要发展一个统一的框架,既能同时保证相关均衡的存在性,又能为系统在这些均衡下运行提供可验证的稳定性条件。定理7提出了一个关于具有稳定性的脉冲博弈的新结果,这可能是该框架下稳定性分析的开创性工作。该定理为系统是渐近稳定的,并且控制对是所考虑脉冲博弈的纳什均衡提供了充分条件。
众所周知,求解最优控制问题和微分博弈问题的解析解并非易事。因此,其数值解受到越来越多关注。智能计算方法,包括神经网络、进化算法和强化学习,已经彻底改变了最优控制和微分博弈中复杂问题的求解方式。这些方法克服了传统解析方法在处理高维、非线性或不确定系统时的局限性。特别是物理信息神经网络(PINNs)被提出后,一些有趣的结果被报道用于求解偏微分方程(PDEs)或常微分方程(ODEs)。最近,LI和ZENG提出了一种将欧拉-拉格朗日定理与PINNs相结合的新框架(EL-PINNs),用于求解最优控制问题中的欧拉-拉格朗日系统。该框架利用三个独立的多层感知机(MLP)模型来预测状态、控制和协态变量,时间作为所有网络的共同输入。此外,为了处理PINNs和EL-PINNs中固有的损失不平衡问题,作者进一步提出了自适应加权欧拉-拉格朗日定理结合物理信息神经网络(AW-EL-PINNs),其结构如图2所示,该框架能自动平衡状态、控制和伴随损失。
与依赖精确数学模型且在高维空间中常面临“维度灾难”的传统方法(如打靶法和离散化)相比,这些基于学习的方法表现出独特优势。它们通常能更好地处理非线性和不确定性,并且可以以数据驱动的方式学习最优策略,减少对完美系统模型的依赖。然而,这些智能方法也有其局限性,例如对超参数调整的敏感性、缺乏收敛性或全局最优性的保证以及训练的计算成本等,这些仍是活跃的研究领域。
本综述简要审视了最优脉冲控制与脉冲博弈(主要关注确定性连续时间设定)的理论基础、算法进展和新兴挑战。这项工作的一个关键贡献,也是其区别于现有文献之处,在于有意地综合了两个关键的研究方向:脉冲博弈中纳什均衡的理论存在性,以及在这些均衡下系统稳定性的实际必要性。通过建立这种清晰的叙事并将其与对PINNs等智能计算方法的前瞻性分析相结合,本综述为该领域的发展及其最紧迫的开放性问题提供了统一的视角。
基于当前的理解,脉冲博弈领域的未来研究方向集中在以下几个关键领域(其概念路线图如图1所示):1) 脉冲博弈理论:将现有理论框架扩展到更复杂的系统,如泛函/偏微分系统,并分析均衡的鲁棒性;2) 系统稳定性理论:刻画脉冲博弈中纳什均衡的存在性与系统稳定性之间的联系。在作者看来,这是一个关键问题,因为在实际应用中,确保系统稳定性和最小化运行成本都是我们的目标;3) 数值计算:基于现有的微分博弈机器学习算法,包括神经网络、PINNs和强化学习,开发学习架构/算法,以更快、更准确地求解脉冲博弈问题;4) 实际应用:优先主题包括多智能体系统中的协同控制、信息物理系统中的安全控制以及神经形态芯片的快速决策算法。
综上所述,这篇发表在《Artificial Intelligence Science and Engineering》上的综述文章,不仅系统梳理了连续时间确定性系统最优脉冲控制与脉冲博弈的理论脉络和核心进展,更重要的是构建了一个连接理论存在性、系统稳定性和智能计算方法的统一框架,为后续研究者攻克该领域的理论难点和计算瓶颈提供了清晰的地图与有力的工具。尤其是指出均衡稳定性这一实际应用不可或缺的要素,并引入PINNs等前沿计算手段,彰显了该研究的前瞻性与综合价值,对推动最优控制与博弈论在复杂工程系统中的实际应用具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号