
-
生物通官微
陪你抓住生命科技
跳动的脉搏
分层强化学习与动态元代理结合,用于整数规划中的自适应割选策略,及其在传感器网络设计中的应用
《Industrial & Engineering Chemistry Research》:Hierarchical Reinforcement Learning with Dynamic Meta Agent for Adaptive Cut Selection in Integer Programming with Applications to Sensor Network Design
【字体: 大 中 小 】 时间:2025年10月28日 来源:Industrial & Engineering Chemistry Research 3.9
编辑推荐:
设计工业传感器网络面临组合优化挑战,转化为大规模整数规划问题后,采用分层强化学习框架结合动态代理分配策略提升切割平面选择效率,在Gomory和覆盖切割两类难题上分别实现25%和60%的时间节省。

为工业过程设计最优的传感器网络面临重大的组合挑战。这些问题通常被表述为大规模整数规划(IP)问题。由于复杂性,高效解决这些IP问题(尤其是通过割平面选择)仍然是一个关键瓶颈。割平面选择是许多IP求解器中的基本技术,它涉及迭代地向问题表述中添加有效的线性不等式(割),以消除非整数解,同时不去除任何可行的整数解。本研究提出了一种分层强化学习(HRL)框架,并结合动态代理分配机制,以增强这些问题求解过程中的割平面选择能力。该框架采用基于近端策略优化(PPO)的双层架构,其中包含一个元代理,负责选择割策略并分配底层代理来细化整数规划松弛问题。我们在具有挑战性的传感器网络设计问题和合成IP实例上评估了这种方法,并将其与单代理强化学习及传统启发式方法进行了比较。结果表明,HRL在累积奖励、成功率以及收敛速度方面均表现出色:在处理大规模实例时,Gomory割和平面覆盖割分别实现了超过25%和60%的时间节省,证明了其在实际应用中优化割平面选择方面的可扩展性和有效性。
生物通微信公众号
知名企业招聘