艾司西酞普兰对强化学习的影响及神经机制：一项双盲安慰剂对照研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月22日 来源：Translational Psychiatry 5.8

编辑推荐：

　　为探究慢性 5 - 羟色胺（5-HT）调节对强化学习（RL）及神经机制的影响，研究人员开展双盲安慰剂对照研究，发现 20mg 艾司西酞普兰（SSRI）干预 3 周可降低惩罚学习率，减弱顶内沟（IPS）在奖励任务中的激活，为优化 SSRI 治疗提供依据。

　　在人类行为的复杂调控网络中，强化学习（Reinforcement Learning, RL）如同精密运转的核心齿轮，驱动着个体通过奖惩反馈不断优化行为策略。这一过程不仅是日常决策的基石，其异常更与抑郁症（Major Depressive Disorder, MDD）等神经精神疾病的核心症状紧密相连 —— 例如抑郁症患者常表现出对负性反馈过度敏感、对奖励响应不足的 “情绪偏差”。作为调节情绪与认知的关键神经递质，5 - 羟色胺（5-Hydroxytryptamine, 5-HT）的作用一直备受关注：急性实验显示其参与 RL 调控，但临床相关的慢性调节（如选择性 5 - 羟色胺再摄取抑制剂（Selective Serotonin Reuptake Inhibitors, SSRIs）长期用药）如何影响 RL 及潜在神经机制，仍是悬而未决的科学谜题。

为破解这一难题，剑桥大学精神病学系联合哥本哈根大学医院神经生物学研究单元的研究团队，开展了一项为期 3 周的双盲安慰剂对照研究。这项发表于《Translational Psychiatry》的研究，以 64 名健康志愿者为对象，通过行为学实验、功能性磁共振成像（Functional Magnetic Resonance Imaging, fMRI）及层级贝叶斯建模（Hierarchical Bayesian Modelling）等多维度技术，系统解析了 20mg 艾司西酞普兰（Escitalopram）对 RL 的慢性影响。

研究采用的关键技术包括：① 双盲安慰剂对照设计：通过半随机分组确保两组在年龄、性别、智商（Intelligence Quotient, IQ）匹配，32 人接受艾司西酞普兰，32 人接受安慰剂，干预时长平均 26 天；② 概率性强化学习范式：在 fMRI 扫描中，受试者完成包含奖励、惩罚、中性三种试次的任务，通过按钮选择图片以最大化收益或最小化损失，任务包含概率性结果（如 70% 概率获得奖励）；③ 计算建模分析：运用层级贝叶斯模型拟合试次数据，比较不同模型对学习率、强化敏感性等参数的解释力；④ fMRI 神经成像：采集任务中血氧水平依赖（Blood Oxygen Level-Dependent, BOLD）信号，分析奖励与惩罚试次中脑区激活差异。

研究结果

行为学与计算建模：惩罚学习的特异性抑制

传统行为学分析显示，两组在准确率与反应时间上无显著差异，但反馈类型（奖励 / 惩罚）主效应显著 —— 奖励试次的准确率更高、反应更快，提示人类天然更易从奖励中学习。
层级贝叶斯建模揭示了关键差异：在惩罚试次中，艾司西酞普兰组的惩罚学习率显著低于安慰剂组（平均差异 =-0.15，90% 最高密度区间（Highest Density Interval, HDI）-0.31 至 - 0.01），而奖励试次的学习率、强化敏感性等参数无组间差异。这表明慢性 SSRI 干预选择性损害了从惩罚中学习的能力。

神经成像：顶内沟的奖励处理异常

fMRI 结果显示，在奖励试次的反馈阶段，艾司西酞普兰组的 ** 顶内沟（Intraparietal Sulcus, IPS）** 激活显著低于安慰剂组（Z=5.03，Cohen’s d=0.63）。IPS 作为 “价值驱动注意网络” 的核心节点，既往研究表明其参与奖励概率编码、状态预测误差（State Prediction Error）计算及不确定条件下的决策。惩罚试次中虽观察到 IPS 激活降低趋势，但未达多重比较校正后的显著水平。

研究结论与讨论：SSRI 作用的神经机制与临床启示

本研究首次证实，3 周艾司西酞普兰干预可特异性削弱健康个体的惩罚学习能力，并降低 IPS 在奖励处理中的神经响应。这一结果提示，慢性 5-HT 升高可能通过抑制 IPS 对奖励价值的编码，导致强化敏感性下降，进而影响适应性反馈学习。
值得关注的是，IPS 的功能异常与抑郁症患者的 “负性偏差” 存在潜在关联 ——SSRI 对 IPS 活动的调节或许是其缓解抑郁症患者过度负性响应的神经基础。尽管研究未观察到传统奖励脑区（如伏隔核、前扣带回）的差异，IPS 在不确定奖励处理中的关键作用（本研究任务包含概率性结果）为理解 SSRI 的认知效应提供了新视角。
研究同时强调了慢性干预时长的重要性：既往短期（1 周）SSRI 研究显示增强惩罚学习，而本研究采用≥3 周干预，与临床起效时间窗（14-21 天）一致，提示神经可塑性变化可能是效应差异的关键。这些发现不仅深化了对 5-HT-RL 神经环路的理解，更为优化 SSRI 治疗策略提供了实证依据 —— 例如，针对需要增强惩罚回避能力的患者，可能需谨慎评估长期用药的潜在影响。

作为首项结合计算建模与神经成像的慢性 SSRI 研究，本研究为抑郁症等神经精神疾病的认知干预提供了跨尺度证据链，其揭示的 IPS 功能异常或成为未来精准治疗的潜在靶点。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号