
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多头网络深度强化学习的多目标动态柔性作业车间实时调度优化研究
【字体: 大 中 小 】 时间:2025年09月02日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文创新性地提出多头深度Q网络(MHDQN)框架,通过结合Dueling DQN和Double DQN架构,解决多目标动态柔性作业车间调度(MODFJSP)中新工件插入场景下的双目标(总延迟时间与机器闲置时间)优化难题。设计的多头网络包含共享层与目标专用层,配合改进的ε贪婪探索策略和六种组合调度规则,显著优于传统启发式规则和元启发式算法,为智能制造实时调度提供新范式。
Highlight亮点
本研究核心创新在于:
1)设计基于Dueling DQN的多头网络架构,包含共享特征提取层和双目标专用层,通过并行Q值计算实现多目标协同优化;
2)开发结合Double DQN的训练机制,采用共享梯度归一化方法防止单目标主导;
3)提出逆S型ε衰减策略改进探索过程,配合Q值最大绝对值(max-abs)标准化技术优化决策平衡;
4)构建6种融合工件/机器选择的组合调度规则库,增强系统动态适应性。
Problem formulation问题建模
定义含新工件插入的MODFJSP:工件集J=J0∪J1含初始/新增工件,各工件Ji含ni个有序工序{Oi,1,...,Oi,ni},机器集M={M1,...,Mk}。双优化目标为:min总延迟时间TT与min机器闲置时间TIT。
Background of DRL深度强化学习背景
将调度问题建模为马尔可夫决策过程(MDPs):
状态s:全局生产状态特征
动作a:从规则库选择调度策略
奖励r:双目标加权函数
基于DQN框架引入Dueling架构(分离价值/优势函数)和Double机制(解耦目标/评估网络)提升稳定性。
Proposed methods proposed methods
状态特征:设计10维全局特征向量含工件/机器动态指标
规则库:开发6种混合规则如"最短加工时间+最早空闲机器"
探索策略:逆S型曲线调整ε值:ε=1/(1+exp(0.01*(episode-200)))
网络架构:共享层→双头Dueling分支(优势流+价值流)
Computational experiment实验验证
在标准FJSP数据集上对比:
传统规则:EDD+SPT等组合规则
元启发式:NSGA-II、MOEA/D
其他RL方法:DQN、DDQN
MHDQN在超体积指标(HV)上提升12.7%-28.3%,Pareto前沿覆盖率显著优于基线。
Conclusion结论
MHDQN框架通过多头网络实现多目标解耦优化,改进探索策略增强全局搜索能力,实验证明其在动态环境下兼具实时响应性与优化质量,为智能制造调度系统提供新思路。
生物通微信公众号
知名企业招聘