基于多头网络深度强化学习的多目标动态柔性作业车间实时调度优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月02日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文创新性地提出多头深度Q网络(MHDQN)框架，通过结合Dueling DQN和Double DQN架构，解决多目标动态柔性作业车间调度(MODFJSP)中新工件插入场景下的双目标（总延迟时间与机器闲置时间）优化难题。设计的多头网络包含共享层与目标专用层，配合改进的ε贪婪探索策略和六种组合调度规则，显著优于传统启发式规则和元启发式算法，为智能制造实时调度提供新范式。

Highlight亮点

本研究核心创新在于：

1）设计基于Dueling DQN的多头网络架构，包含共享特征提取层和双目标专用层，通过并行Q值计算实现多目标协同优化；

2）开发结合Double DQN的训练机制，采用共享梯度归一化方法防止单目标主导；

3）提出逆S型ε衰减策略改进探索过程，配合Q值最大绝对值(max-abs)标准化技术优化决策平衡；

4）构建6种融合工件/机器选择的组合调度规则库，增强系统动态适应性。

Problem formulation问题建模

定义含新工件插入的MODFJSP：工件集J=J⁰∪J¹含初始/新增工件，各工件J_i含n_i个有序工序{O_i,1,...,O_{i,n_i}}，机器集M={M₁,...,M_k}。双优化目标为：min总延迟时间TT与min机器闲置时间TIT。

Background of DRL深度强化学习背景

将调度问题建模为马尔可夫决策过程(MDPs)：

•
状态s：全局生产状态特征
•
动作a：从规则库选择调度策略
•
奖励r：双目标加权函数
基于DQN框架引入Dueling架构（分离价值/优势函数）和Double机制（解耦目标/评估网络）提升稳定性。

Proposed methods proposed methods

1.
状态特征：设计10维全局特征向量含工件/机器动态指标
2.
规则库：开发6种混合规则如"最短加工时间+最早空闲机器"
3.
探索策略：逆S型曲线调整ε值：ε=1/(1+exp(0.01*(episode-200)))
4.
网络架构：共享层→双头Dueling分支（优势流+价值流）

Computational experiment实验验证

在标准FJSP数据集上对比：

•
传统规则：EDD+SPT等组合规则
•
元启发式：NSGA-II、MOEA/D
•
其他RL方法：DQN、DDQN
MHDQN在超体积指标(HV)上提升12.7%-28.3%，Pareto前沿覆盖率显著优于基线。

Conclusion结论

MHDQN框架通过多头网络实现多目标解耦优化，改进探索策略增强全局搜索能力，实验证明其在动态环境下兼具实时响应性与优化质量，为智能制造调度系统提供新思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号