面向决策的分布鲁棒自由能原理:在模型模糊性中实现智能体稳健决策

《Nature Communications》:Distributionally robust free energy principle for decision-making

【字体: 时间:2025年12月18日 来源:Nature Communications 15.7

编辑推荐:

  本刊编辑推荐:自主智能体在训练环境与真实环境存在差异时容易出现故障甚至失败,如何实现决策机制的鲁棒性成为关键挑战。Shafiei等人提出了分布鲁棒自由能模型(DR-FREE),将自由能原理与分布鲁棒优化相结合,通过最小化最大自由能来计算策略。实验表明,在存在模型模糊性时,DR-FREE能成功完成任务,而现有方法则失败。这项工作为开放环境中智能体的稳健决策提供了新范式。

  
在人工智能飞速发展的今天,自主智能体已经在诸多领域展现出惊人能力——从在《GT赛车》游戏中超越人类冠军,到控制核聚变等离子体,再到实现冠军级无人机竞速性能。然而,这些看似强大的智能体却隐藏着一个致命弱点:它们极度依赖训练环境与真实环境的一致性。一旦环境出现细微变化,比如光线条件改变、物体颜色变化,或者无人机出现轻微故障导致动力学特性与训练时不同,这些智能体的表现就会急剧下降,甚至发生灾难性失败。
这种训练环境与真实环境之间的不匹配,被称为模型模糊性(model ambiguity),已成为智能体在开放世界中实际部署的长期挑战。尽管深度强化学习(RL)智能体在特定任务上表现出色,但它们无法与自然智能体相媲美——自然智能体通过进化获得了决策能力,即使几乎没有训练,也能在多变的环境中生存和繁衍。
针对这一核心问题,来自捷克技术大学、纽约大学阿布扎比分校、伦敦大学学院和萨莱诺大学的研究团队在《Nature Communications》上发表了题为"Distributionally robust free energy principle for decision-making"的研究论文,提出了一种名为DR-FREE的分布鲁棒自由能模型,从根本上重新思考了智能体如何处理环境不确定性。
DR-FREE的核心思想是将稳健性直接植入智能体的决策机制中。与传统的自由能最小化方法不同,DR-FREE不是基于单一环境模型来最小化自由能,而是在一个围绕训练模型的模糊集合内,最小化最大自由能。这意味着智能体的行动是从一个能够最小化所有可能环境中最坏情况自由能的策略中采样得到的。
该模型包含两个关键组成部分:分布鲁棒自由能原理和相应的求解引擎。分布鲁棒自由能原理提供了策略计算的问题表述框架,而求解引擎则是计算策略的方法。这一框架允许智能体在存在模型模糊性的情况下,仍然能够做出最优决策。
研究人员通过一系列精心设计的实验验证了DR-FREE的有效性。在机器人导航任务中,智能体需要到达目标位置同时避开障碍物。关键挑战在于,智能体只能访问从有偏数据中学习的训练模型,该模型不能充分捕捉真实环境,从而引入了模糊性。实验结果显示,即使在存在这种模糊性的情况下,DR-FREE仍能成功引导机器人完成任务,而现有的最先进方法,包括传统的自由能最小化智能体,在相同条件下往往失败。
更为有趣的是,研究发现当模糊性增加时,DR-FREE的策略会变得更加保守,智能体会更倾向于选择那些与较低模糊性相关联的状态和行动。这种行为模式与自然智能体在不确定性环境中的决策策略有着惊人的相似性。
技术方法上,作者主要采用了分布鲁棒优化框架结合变分推断方法,通过KL散度(Kullback-Leibler divergence)定义模糊集合,构建了双层级优化问题。研究还利用了高斯过程(Gaussian Processes)进行模型学习,并在Robotarium平台和MuJoCo仿真环境中进行了实证验证,涵盖了从低维导航任务到高维Ant环境的多种测试场景。
DR-FREE原理框架
研究团队首先形式化了分布鲁棒自由能原理。该原理将策略计算表述为一个序列策略优化框架,其中随机策略来自于在模糊性上最小化最大自由能。具体而言,对于给定的状态/行动对,模糊集合被定义为所有可能环境的集合,这些环境与训练模型之间的统计复杂性不超过ηk(xk-1,uk)。这一集合通过KL散度来刻画,确保了数学表述的严谨性。
求解引擎与策略计算
面对变分自由能和模糊约束在无限维决策变量上的非线性挑战,研究团队开发了专门的求解引擎。该引擎采用双层级优化方法:首先通过在所有可能环境中最大化自由能来计算模糊性成本,然后在策略空间中最小化自由能。关键突破在于,即使最大化问题本身是无限维的,其最优值可以通过求解一个标量优化问题来获得,该问题是凸的且具有全局最小值。
模糊性对决策的影响机制
DR-FREE清晰地揭示了模糊性对最优决策的机制性影响。研究表明,DR-FREE策略会为与较高模糊性相关联的状态和行动分配较低的概率。这意味着遵循DR-FREE策略的智能体更可能选择与较低模糊性相关的行动和状态。随着模糊性增加,策略越来越由智能体的生成模型和模糊半径主导,反映出智能体对其训练模型信心的缺乏。
与最大扩散方法的比较
研究团队还将DR-FREE与最大扩散(MaxDiff)方法进行了系统比较。MaxDiff是一种策略计算框架,继承了最大熵(MaxEnt)的鲁棒性特性,并在多个流行基准测试中表现出色。理论分析表明,当模糊性放松时,DR-FREE可以通过适当选择生成模型q0:N来恢复MaxDiff目标。实验结果显示,在相同设置下,DR-FREE在MaxDiff失败的情况下仍能成功完成任务,证明了其优越的鲁棒性保证。
贝叶斯信念更新支持
另一个重要特征是DR-FREE支持贝叶斯信念更新。给定一系列观察到的状态/行动对,可以通过最小化负对数似然来估计组合成本。由此产生的优化问题是凸的,如果采用广泛使用的成本线性参数化方法。这一便利的推论使得研究人员能够在使用DR-FREE的实验中对机器人的驱动成本进行重建,进一步验证了模型的有效性。
高维环境验证
为了测试DR-FREE在更复杂场景中的性能,研究团队在MuJoCo的Ant环境中进行了评估。这是一个29维状态空间和8维行动空间的高维任务,要求四足智能体沿x轴向前移动同时保持直立姿态。实验结果表明,DR-FREE在平均回报方面优于所有对比方法,并且在所有DR-FREE实验中,Ant始终保持健康状态,而其他方法在部分试验中会因Ant变得不健康而提前终止回合。
研究结论强调,鲁棒性是智能体在现实世界中运行的核心要求。与将这一要求的实现留给训练过程中可能出现的脆弱特性不同,DR-FREE通过设计来确保这一核心要求,建立在自由能最小化的基础上,并将序列策略优化纳入一个严谨的变分或贝叶斯框架中。
讨论部分指出,DR-FREE不仅提供了一个考虑环境模糊性的自由能原理,还提供了解决由此产生的序列策略优化框架的求解引擎。这一里程碑很重要,因为它解决了智能机器在开放世界中运行的挑战。在此过程中,DR-FREE阐明了模糊性对最优决策的机制性作用,其策略支持基于贝叶斯信念的更新。DR-FREE确立了在面临模糊性时的性能极限,表明在一个非常基本的层面上,受模糊性影响的智能体不可能胜过无模糊性的自由能最小化智能体。
这项研究的深远意义在于,它提出了一种通过自由能最小化实现稳健决策的模型,其中鲁棒性保证直接在问题表述中定义。这不仅为在多智能体设置中部署自由能模型提供了启示,也为理解自然智能体如何在具有挑战性的环境中以极少或没有训练的情况下仍能稳健运行提供了生物学上合理的神经解释。随着智能系统在现实世界中的部署越来越广泛,DR-FREE所代表的这种将鲁棒性内置到决策机制中的方法,可能会成为未来人工智能发展的重要方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号