基于物理信息的多智能体强化学习在风险感知供应链优化中的应用
《IEEE Access》:Coordinated Physics-Informed Multi-Agent Reinforcement Learning for Risk-Aware Supply Chain Optimization
【字体:
大
中
小
】
时间:2025年11月12日
来源:IEEE Access 3.6
编辑推荐:
针对多智能体强化学习在供应链优化中的物理一致性、风险量化及分布式决策协调问题,提出PIMA-DRL框架,整合物理信息神经网络与分布式强化学习,通过可微物理约束、条件价值风险优化及拉格朗日对偶协调机制,实验显示约束错误减少87.3%,尾部风险改善42.1%,收敛速度提升2.4倍。
摘要:
多智能体强化学习在供应链优化中面临诸多挑战,包括保持物理一致性、量化运营风险以及协调分布式决策。现有方法常常违反基本的守恒原理,依赖于忽略尾部风险的期望值优化,并且缺乏确保自主智能体之间全局一致性的有效机制。我们提出了PIMA-DRL这一统一框架,它将基于物理知识的神经网络与分布式强化学习相结合,以同时解决这些限制。该框架通过直接嵌入学习过程的可微分物理约束来强制执行守恒定律,同时保持对回报的完整概率分布,从而通过条件风险价值优化实现复杂的风险评估。基于拉格朗日对偶性的新颖协调机制在保持智能体自主性的同时确保了全局一致性,这通过分散式的乘数更新实现。我们在有界物理约束违规的情况下建立了理论收敛性保证,并证明了与不考虑物理因素的方法相比,PIMA-DRL具有更高的样本效率。局部智能体状态包括库存水平、流动动态、需求预测和容量限制,其演变受基于守恒的微分方程控制。在多层次库存网络、枢纽-辐射型分销系统和易腐品供应链上的综合实验表明,与传统的基线方法相比,PIMA-DRL取得了显著改进:守恒误差减少了87.3%,约束违规减少了74.6%,尾部风险得到了42.1%的改善,同时收敛速度提高了2.4倍。基于物理知识的结构增强了模型的可解释性,并提供了对运营变化环境下稳健供应链管理至关重要的不确定性量化方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号