
-
生物通官微
陪你抓住生命科技
跳动的脉搏
受“心智理论”启发的广义推理语言模型,改进了多智能体强化学习算法,以实现鲁棒且适应性强的合作伙伴建模
《Machine Intelligence Research》:Theory of Mind Inspired Large Reasoning Language Model Improved Multi-agent Reinforcement Learning Algorithm for Robust and Adaptive Partner Modelling
【字体: 大 中 小 】 时间:2025年10月30日 来源:Machine Intelligence Research 8.7
编辑推荐:
合作多智能体强化学习(MARL)虽进步显著,仍面临现实应用挑战,需通过理论思维(ToM)增强伙伴建模能力。生物前额叶皮层(PFC)的复杂结构难以直接移植至人工神经网络,但大型推理语言模型(LRMs)展现出类人推理能力。本文提出改进的LRM框架模拟PFC功能,并设计ToM推理器以提升复杂MARL场景中的伙伴建模能力,实验表明该框架在合作基准测试中性能显著提高。
合作多智能体强化学习(MARL)领域取得了显著的进展。然而,这些先进方法在现实世界应用中仍面临诸多挑战。改进合作MARL技术并解决现有挑战的一个重要方向是实现鲁棒且适应性强的合作伙伴建模。理解合作伙伴的信念(如他们的意图和行为)对于合作伙伴建模至关重要,这在认知科学中被称为“心智理论”(ToM)。在动物中,前额叶皮层(PFC)的生物心智理论推理在决策前的复杂环境生存中起着重要作用。然而,生物PFC的复杂性使得它无法以功能或结构的方式直接融入传统的人工神经网络(ANNs)中。大型推理语言模型(LRMs)最近展示了类似人类的推理能力和出色的性能。因此,我们提出了一个改进的LRM框架来模拟PFC,以实现鲁棒且适应性强的合作伙伴建模。尽管LRMs在各个领域表现出色,但它们在复杂MARL场景中的心智理论推理能力仍然有限。为此,我们进一步提出了一个心智理论推理器来增强LRMs的心智理论推理能力。我们的框架在不同规模的LRMs中表现出鲁棒性和适应性,提高了智能体的心智理论推理能力,从而促进了更有效的合作伙伴建模,进而使合作基准测试中的性能得分更高。
合作多智能体强化学习(MARL)领域取得了显著的进展。然而,这些先进方法在现实世界应用中仍面临诸多挑战。改进合作MARL技术并解决现有挑战的一个重要方向是实现鲁棒且适应性强的合作伙伴建模。理解合作伙伴的信念(如他们的意图和行为)对于合作伙伴建模至关重要,这在认知科学中被称为“心智理论”(ToM)。在动物中,前额叶皮层(PFC)的生物心智理论推理在决策前的复杂环境生存中起着重要作用。然而,生物PFC的复杂性使得它无法以功能或结构的方式直接融入传统的人工神经网络(ANNs)中。大型推理语言模型(LRMs)最近展示了类似人类的推理能力和出色的性能。因此,我们提出了一个改进的LRM框架来模拟PFC,以实现鲁棒且适应性强的合作伙伴建模。尽管LRMs在各个领域表现出色,但它们在复杂MARL场景中的心智理论推理能力仍然有限。为此,我们进一步提出了一个心智理论推理器来增强LRMs的心智理论推理能力。我们的框架在不同规模的LRMs中表现出鲁棒性和适应性,提高了智能体的心智理论推理能力,从而促进了更有效的合作伙伴建模,进而使合作基准测试中的性能得分更高。
生物通微信公众号
知名企业招聘