基于深度Q网络的模型预测控制运动提示算法优化及其在特定飞行场景中的应用研究
《IEEE Open Journal of Intelligent Transportation Systems》:Deep Q-Network Based Optimization of Model Predictive Control Motion Cueing Algorithm for Specific Scenario
【字体:
大
中
小
】
时间:2025年12月08日
来源:IEEE Open Journal of Intelligent Transportation Systems 5.3
编辑推荐:
本研究针对飞行模拟器中运动提示算法(MPC MCA)在飞机失速预防与恢复训练(UPRT)等高机动场景下运动提示保真度不足的问题,提出了一种基于深度Q网络(DQN)的优化方法。通过将前庭感知模型集成到MPC框架中,并利用DQN学习特定场景下的运动提示权重向量,研究人员成功提升了关键运动感知通道的跟踪性能。实验结果表明,优化后的算法使感知跟踪性能提升至少11.6%,主观评分提高至少7.8%,为高要求训练条件下的运动真实感和训练效率提升提供了有效解决方案。
在现代航空训练领域,飞行模拟器发挥着越来越重要的作用,它们能够在地面安全、经济地复现各种飞行条件。然而,模拟器中的运动平台面临着一个根本性挑战:如何在有限的工作空间内,为飞行员提供逼真的运动感知提示?这一挑战在飞机失速预防与恢复训练(UPRT)等高机动场景中尤为突出。当飞机进入异常姿态时,飞行员需要准确感知运动状态以做出正确决策,但传统运动提示算法往往难以在平台约束下提供足够的运动提示保真度。
国际民用航空组织(ICAO)将UPRT列为重要训练项目,旨在帮助飞行员识别、避免和从飞行失控状态中恢复。然而,现有运动提示算法在应对大俯仰角、大滚转角等极端机动时,往往无法提供足够强烈和准确的运动提示,这直接影响了训练效果和飞行安全。问题的核心在于如何平衡运动提示的真实性与平台工作空间的限制,这一矛盾在传统算法中难以得到有效解决。
针对这一技术难题,发表在《IEEE Open Journal of Intelligent Transportation Systems》上的研究提出了一种创新解决方案:基于深度Q网络(DQN)的模型预测控制(MPC)运动提示算法优化方法。该研究团队来自中国仿真科技股份有限公司先进研究院,他们巧妙地将强化学习与模型预测控制相结合,为特定训练场景下的运动提示优化提供了新思路。
研究人员首先构建了完整的MPC运动提示算法框架。该框架的核心是将人类前庭感知模型集成到控制系统设计中,包括半规管(SCC)模型、耳石(OTO)模型和倾斜协调技术。半规管负责感知角速度,耳石负责感知线性加速度,而倾斜协调技术则利用重力分量来模拟持续线性加速度,这一巧妙设计有效扩展了平台的工作空间利用率。
MPC算法的优势在于能够显式处理系统约束,包括控制输入约束、输入变化率约束和输出约束。研究人员为六自由度(6-DOF)Stewart平台设定了详细的工作空间限制,如X轴位移范围-0.892m至1.174m,俯仰角范围-23.15°至23.15°等。通过构建包含状态预测、误差计算和约束处理的目标函数,MPC算法能够在满足平台物理限制的同时,优化运动提示效果。
研究的关键创新点在于采用DQN对MPC算法中的运动提示权重向量进行优化。运动提示权重向量w包含六个元素,分别对应横滚、俯仰、偏航角速度感知和纵向、横向、垂向线性加速度感知的权重。传统的权重设置往往基于经验,而该研究通过强化学习实现了数据驱动的优化。
为了开展这项研究,团队采用了几个关键技术方法:首先利用NASA的通用运输机模型(GTM)和交叉飞行员模型(Crossover Pilot Model)批量生成高质量的飞行数据;其次构建了包含前庭感知模型的MPC运动提示算法框架;最后采用深度Q网络进行权重优化,通过定义合理的奖励函数来引导学习过程。这些方法的结合使得算法能够针对特定场景进行精准优化。
研究团队将DQN优化过程设计为典型的智能体-环境交互框架。状态空间由飞行参数组成,包括控制元件增益、飞行员增益和飞行员时间延迟;动作空间包含106种可能的运动提示权重组合;奖励函数则基于运动感知的拟合优度R2值设计,重点强调对飞行员状态感知至关重要的运动通道。
研究人员设计了两套奖励函数:RW1赋予纵向运动最高权重(1.0),俯仰和垂向运动中等权重(0.5);RW2则对纵向、俯仰和垂向运动均赋予最高权重。这种设计旨在探索不同权重分配策略对优化效果的影响。Q网络采用三层全连接结构,输入层处理三个状态特征,两个隐藏层各包含128个神经元,输出层对应所有可能的动作。
通过大量训练,DQN学习到了针对机头上仰恢复场景的最优运动提示权重向量。使用RW1得到的权重为w1=[0.9 0.5 1.0 0.3 0.4 0.5],使用RW2得到的权重为w2=[0.8 0.5 0.7 0.2 0.5 0.5]。这些权重分布反映了在机头上仰场景下,某些运动通道对飞行员状态感知更为重要。
在单次机头上仰恢复场景中,优化后的MPC MCA将平均感知拟合度R2提升至0.840(w1)和0.836(w2),相比标准MPC MCA(0.749)提升超过12%。在四次连续机头上仰恢复的复杂场景中,优化算法的优势更加明显,平均感知拟合度达到0.646(w1)和0.599(w2),相比标准MPC MCA(0.381)提升超过69%。
特别值得注意的是,优化算法在关键运动通道上的表现尤为突出。在俯仰角速度感知(R2ωy)方面,w1MPC MCA达到0.816,w2MPC MCA达到0.913,显著高于标准MPC MCA的0.649。在纵向加速度感知(R2fx)方面,优化算法也保持了较高水平(0.980和0.975),确保了飞行员对纵向运动状态的准确感知。
为了验证优化算法的实际效果,研究团队邀请了十名商业航空公司飞行员参与评估,包括两名教员、三名机长和五名副驾驶。评估在D级全动A320 NEO飞行模拟器上进行,每位飞行员对五种不同的运动提示算法进行评分。
主观评分结果显示,优化后的MPC MCA获得了显著更高的评价。w1MPC MCA平均得分7.6,w2MPC MCA平均得分6.9,而经典MCA和标准MPC MCA分别仅为6.2和6.4。统计分析表明,优化算法与特定MPC MCA之间存在显著差异(p<0.01),效应量d达到1.708,属于大效应规模。
飞行员反馈表明,优化后的算法在机头上仰恢复场景中能够提供更准确的关键运动提示,特别是在俯仰、纵向和垂向运动方面。这有助于飞行员更快识别飞机状态并采取正确的恢复操作,同时保持了其他运动通道的基本感知能力,提供了更加平衡和真实的训练体验。
本研究成功地将深度强化学习应用于模型预测控制运动提示算法的优化中,针对飞机失速预防与恢复训练中的特定场景提出了有效的解决方案。通过DQN学习得到的运动提示权重向量,能够在满足平台约束的前提下,优先保证关键运动通道的提示保真度,同时兼顾其他通道的基本感知需求。
研究的创新点主要体现在三个方面:首先,将前庭感知模型完整集成到MPC框架中,为运动提示优化提供了生理学基础;其次,采用DQN进行数据驱动的权重优化,避免了传统经验调参的局限性;最后,通过主客观结合的评价体系,全面验证了优化算法的有效性。
这项研究的意义不仅在于解决了特定场景下的运动提示优化问题,更重要的是为智能优化方法在飞行模拟训练中的应用提供了范例。研究表明,针对不同训练场景的特点进行算法定制是提升训练效果的有效途径。未来,这种方法可以扩展到更多飞行场景,并进一步发展出自适应切换机制,根据实时飞行状态动态调整运动提示策略。
从更广阔的视角来看,这项研究代表了飞行模拟训练领域的发展趋势:通过深度融合先进控制理论、机器学习方法和人类感知模型,不断提升模拟训练的真实性和有效性。随着计算能力的持续增强和算法的不断优化,这种基于人工智能的个性化运动提示优化方法有望在航空训练领域发挥越来越重要的作用,为培养具备更强情境意识和处置能力的飞行员提供技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号