《Neurocomputing》:Adaptive scalarization in multi-objective reinforcement learning for enhanced robotic arm control
编辑推荐:
多目标强化学习框架下动态权重适应技术优化7-DOF机器人控制精度与运动平滑度,对比加权平均、切比雪夫和参考点标量化方法,实验表明DWA在奖励均值、收敛速度、成功率及Pareto前沿多样性上显著提升,且无需参数调整,展现优异鲁棒性和适应性。
乔奈德·希亚尼法尔(Jonaid Shianifar)| 迈克尔·舒卡特(Michael Schukat)| 卡尔·梅森(Karl Mason)
爱尔兰戈尔韦大学计算机科学学院,戈尔韦,H91 FYH2
摘要
本文介绍了一种新颖的标量化技术——动态权重调整(Dynamic Weight Adapting,简称DWA),用于多目标强化学习(Multi-Objective Reinforcement Learning,简称MORL),以控制具有7个自由度(7-DOF)的机械臂,在到达目标的任务中同时优化精度和运动平滑性。我们在一个先进的MORL框架内,将DWA与现有的标量化方法(包括加权求和、切比雪夫法和参考点法)进行了比较。实验结果表明,DWA的性能优于其他方法,实现了更高的平均奖励和更快的收敛速度。值得注意的是,DWA和参考点法在达到95%的成功率方面的时间明显早于其他标量化方法。此外,DWA在关节失效的条件下仍能保持高性能。与领先的基线技术相比,DWA产生的帕累托最优解集更加多样化,超体积增加了19.5%,稀疏性降低了10.6%,且无需调整参数。这项工作通过引入一种自适应的标量化方法到MORL中,显著提高了机械臂控制的效率和可靠性。
引言
强化学习(Reinforcement Learning,简称RL)在机械臂控制中的应用推动了重大进展,使机器人能够通过与环境的互动学习和适应复杂行为[1]、[2]、[3]、[4]、[5]。然而,许多实际应用要求机器人同时处理多个通常相互冲突的目标,这一问题通过多目标强化学习(MORL)得到了有效解决[6]、[7]。
尽管在MORL领域的研究不断增长,但在其应用于机械臂控制方面仍存在明显不足,特别是在实现精度和平滑性等竞争目标之间的平衡方面。例如,机械臂可能需要最大化到达目标的精度,同时确保轨迹的平滑性,这通常需要复杂的权衡。现有的研究[6]、[8]、[9]主要采用了线性标量化技术,特别是对所有目标赋予相同优先级的加权求和法。然而,这些方法可能无法充分捕捉到根据任务情境需要动态调整优先级的复杂权衡。
本研究通过结合MORL和创新标量化技术,解决了这一挑战,从而优化了机械臂控制的精度和平滑性,这对于焊接、喷涂、铣削和激光切割等工业应用至关重要[10]、[11]。通过在MORL中探索先进的标量化方法,本文旨在推动机器人控制系统的最新发展。Soft Actor-Critic(SAC)算法以其在连续RL任务中的稳定性和效率而闻名,成为所提出方法的基础,以满足机械臂控制的独特需求。
虽然逆运动学(Inverse Kinematics,简称IK)技术(如d-H方法或伪逆求解器)在机器人操作中常用,但在现代应用中存在局限性,尤其是在高自由度机器人和多目标任务中。这些传统方法需要精确的建模,计算成本高,并且难以适应平滑性或动态适应等复杂约束。最近的研究表明,强化学习在这些场景中提供了更好的灵活性和泛化能力,特别是在需要同时优化实时适应性和多个竞争目标(如精度和运动平滑性)时[12]、[13]、[14]。虽然标量化在MORL中广泛应用,但它依赖于静态权重且帕累托覆盖范围有限,限制了适应性。我们提出的动态权重调整(DWA)通过动态调整权重,从而弥合了简单标量化和计算密集型多策略方法之间的差距。
本文的贡献包括:
•提出了一种新颖的标量化技术——动态权重调整(DWA),用于动态调整机械臂控制任务中精度和平滑性之间的平衡。
•将参考点标量化技术引入多目标强化学习(MORL)的框架中,这是该领域的一个新应用。
•提出了一个定制的多目标Soft Actor-Critic(MOSAC)框架,从SAC改进而来,有效处理多目标机器人控制任务中的连续动作空间。
•对比了多种标量化技术在控制7自由度(7-DOF)机械臂方面的性能,重点优化了目标到达精度和运动平滑性。
•证明了基于DWA的控制器在关节故障条件下的鲁棒性,展示了其在实际不可预测应用中的潜力。
本文的其余部分组织如下:第2节提供理论背景和相关工作的文献综述。第3节详细介绍了实验设置、MORL框架以及所采用的标量化技术,包括提出的方法。第4节展示并分析了实验结果,第5节提出了结论并讨论了未来的研究方向。
章节片段
背景和文献综述
本节介绍了强化学习(RL)的理论基础和当前研究进展,扩展到了多目标框架和机械臂控制的应用。
方法论
本节描述了本研究采用的方法论,以探索MORL技术在机械臂控制中的应用,具体针对两个主要目标:末端执行器(End-Effector,简称EE)到达目标的精度和运动平滑性。
结果与讨论
对不同标量化技术在机械臂控制中的有效性进行了研究,取得了有洞察力的结果。我们的评估集中在三种现有技术上:加权求和、切比雪夫法和参考点法,并将其与我们的新方法DWA进行了比较。训练和评估共进行了100,000个周期,每1000个周期记录一次性能指标,以评估进展和对帕累托前沿的贡献。
结论
本文探讨了多目标强化学习(MORL)在机械臂控制中的挑战,重点关注两个基本目标:最小化到目标的距离和确保运动平滑性。我们系统地评估了现有的标量化技术(加权求和、切比雪夫法和参考点法),并引入了一种新方法——动态权重调整(DWA),该方法可以根据实时性能反馈动态调整目标权重。
在
CRediT作者贡献声明
乔奈德·希亚尼法尔(Jonaid Shianifar):撰写——审阅与编辑、撰写——原始草稿、可视化、软件、资源、方法论、调查、形式分析、概念化。
迈克尔·舒卡特(Michael Schukat):撰写——审阅与编辑、监督。
卡尔·梅森(Karl Mason):撰写——审阅与编辑、验证、监督、资源、项目管理。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
卡尔·梅森表示获得了戈尔韦大学科学与工程学院的财务支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了戈尔韦大学科学与工程学院研究生奖学金的支持。
乔奈德·希亚尼法尔(Jonaid Shianifar)是戈尔韦大学的计算机科学博士候选人。他的研究重点是强化学习和机器人控制的多目标优化。他拥有伊朗拉齐大学电子工程专业的硕士和学士学位。他的研究兴趣包括强化学习、进化计算、机器学习、神经网络和机器人技术。