多智能体强化学习揭示迭代与进化博弈中的记忆-2双边互惠策略优势
《Nature Communications》:A multi-agent reinforcement learning framework for exploring dominant strategies in iterated and evolutionary games
【字体:
大
中
小
】
时间:2025年12月09日
来源:Nature Communications 15.7
编辑推荐:
本文推荐一项利用多智能体强化学习框架探索迭代与进化博弈中优势策略的研究。针对传统方法难以在长记忆策略空间中发现有效策略的难题,研究人员开发了一种新型学习算法,通过与经典策略(TFT、GTFT、WSLS等)和启发式策略(如GradualTFT、OmegaTFT)交互训练,发现了记忆-2双边互惠策略(MTBR)。该策略在20轮囚徒困境博弈中显著提升群体平均收益至2.938(接近理论最大值3.0),并在多种网络结构(全连接、晶格、无标度网络)和博弈类型(雪堆博弈、猎鹿博弈等)中展现进化优势。这项工作为复杂策略空间的探索提供了新范式,对理解合作行为的演化机制具有重要理论价值。
在人类社会演化过程中,合作行为的涌现始终是进化生物学和社会科学的核心谜题。尽管"以牙还牙"(Tit-for-Tat, TFT)、"赢保持输转移"(Win-Stay-Lose-Shift, WSLS)等经典策略为理解直接互惠提供了重要视角,但这些基于人类直觉的策略仅能覆盖有限的行为模式。尤其当策略记忆长度超越一步时,策略空间的维度会呈指数级增长,使得传统数学分析方法难以应对。更关键的是,现有策略往往无法在提升个体收益的同时协调群体达到更高合作水平,这种双重挑战促使研究者寻求新的方法论突破。
近日,苏琦、王宏宇等人在《Nature Communications》发表研究,通过构建多智能体强化学习框架,在迭代与进化博弈中发现了一种具有显著优势的记忆-2双边互惠策略(Memory-Two Bilateral Reciprocity, MTBR)。该策略不仅能在外策略交互中获得更高收益,还能在进化过程中主导种群动态,显著提升社会总福利。
研究团队设计的多智能体Q学习框架包含49个学习智能体和49个采用预设策略的导师智能体。每个智能体通过Nstate×M的Q表(其中Nstate表示状态数,M表示动作数)存储决策信息,在20轮囚徒困境博弈中根据过去?步交互历史选择合作或背叛。智能体的奖励函数WpX创新性地结合了相对优势(战胜对手)和绝对收益两个目标,通过参数θ(设为0.8)平衡两者权重。训练采用典型囚徒困境参数(R=2, S=0, T=3, P=0.1),通过降低相互背叛的收益P值,营造有利于合作行为涌现的环境。
分析MTBR的Q表揭示其核心行为模式:(1)当对手首轮背叛而己方合作时,第二轮继续合作,通过宽恕诱导互惠;(2)若前两轮均相互背叛,第三轮主动合作以打破僵局;(3)其他场景下模仿对手上轮行动。与传统策略相比,MTBR在建立合作方面展现显著效率。
如图1所示,当两个MTBR个体首轮分别选择合作与背叛时,它们能快速建立合作状态,而GradualTFT需要三轮,TFT则会陷入"合作-背叛"循环。在相互背叛的初始条件下,MTBR仅需两轮即可恢复合作,而TFT将陷入永久相互背叛。这种快速建立合作的能力是其成功的关键。
研究比较了包含7种经典策略(GradualTFT、OmegaTFT等)的集合1和加入8种零行列式(Zero-Determinant, ZD)策略的集合2。结果显示,引入MTBR后,集合1的平均收益从2.15提升至2.52,集合2从1.93提升至2.45。MTBR成为仅次于GradualTFT的第二高收益策略,差异微小(0.002),表明其具有促进群体共赢的社会正外部性。
在策略可演化的种群中(N=7,000),MTBR展现出强大进化优势。无MTBR时,GTFT0.3成为最丰富策略,群体平均收益为2.900。引入MTBR后,其频率持续上升并最终主导种群(图3b),将平均收益提升至2.938。尽管增幅仅0.038,但考虑到与理论最大值3.000的接近程度,这一提升相当于剩余改进空间的38%。在50个体的小种群中,MTBR的引入使平均收益从1.78大幅提升至2.94,接近完全合作水平。
在行为噪声环境下(误执行概率η=0.01),MTBR仍保持主导地位;当η=0.05时,MTBR与GTFT0.3共同主导种群。引入突变(μ=0.1)后,MTBR仍能维持约77%的占比,显示其对随机扰动的强鲁棒性。
研究通过改变贪婪度(T-R)和恐惧度(S-P)参数,考察了MTBR在四种博弈类型中的表现:囚徒困境(PD)、雪堆博弈(SG)、猎鹿博弈(SH)与和谐博弈(HG)。
如图4所示,MTBR在囚徒困境区域(右下象限)表现出全面主导,但在雪堆博弈中沿2R=T+S线的优势减弱。当T+S>2R时,博弈激励倾向于交替合作与背叛(ST-互惠而非R-互惠),使TFT策略获得优势。这解释了MTBR在训练环境(囚徒困境)外的局限性,同时也提示未来研究需结合收益信息开发更通用策略。
在网络结构方面,MTBR在全连接、晶格和无标度网络中都保持主导地位,但在连接度较低的晶格和无标度网络中传播速度较慢,体现了网络拓扑对策略扩散的影响。
本研究通过数学证明验证MTBR满足"伙伴策略"(partner strategy)的两个核心条件:(1)与自身交互可实现相互合作;(2)其他策略无法获得高于R的收益。这从理论上确保了其进化稳定性。与CURE、AON2等最新长记忆策略相比,MTBR仍保持明显优势。
该研究的意义在于首次将多智能体强化学习系统应用于进化博弈策略空间探索,发现了超越人类直觉的MTBR策略。该策略在信息利用复杂度和决策清晰度间取得优异平衡,为理解合作行为演化提供了新视角。未来工作可探索噪声环境下的稳健策略、多人博弈扩展以及基于收益信息的策略设计,进一步推动这一领域的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号