基于批约束强化学习的个性化抗凝治疗决策框架:面向重症监护的肝素剂量优化研究

《IEEE Access》:A Reinforcement Learning Framework for Personalized Anticoagulation Dosing in Critical Care: Integrating Batch-Constrained Policy Optimization and Off-Policy Evaluation

【字体: 时间:2025年12月01日 来源:IEEE Access 3.6

编辑推荐:

  本研究针对重症监护室(ICU)肝素抗凝治疗个体差异大、传统给药方案难以精准优化的问题,提出了一个结合离线强化学习(RL)与多指标策略评估的个性化剂量决策框架。研究人员利用Batch-Constrained Q-Learning(BCQ)算法从MIMIC-III/IV临床回顾数据中学习最优给药策略,并通过拟合Q评估(FQE)、双重稳健(DR)等离线策略评估(OPE)方法验证其有效性。结果表明,BCQ策略在维持治疗性aPTT(活化部分凝血活酶时间)方面显著优于临床医生策略及传统RL方法,且具备良好的跨队列泛化能力与临床可解释性,为ICU抗凝治疗的精准化与安全性提供了新思路。

  
在重症监护室(ICU)中,血栓性疾病是危及患者生命的常见并发症,而肝素(heparin)作为经典抗凝药物,其剂量调控始终是临床实践中的难点。由于患者之间存在显著的个体差异,统一剂量的肝素可能导致抗凝效果不足(增加血栓风险)或过量(引发出血事件)。传统依赖医生经验调整的方案难以实现精准化、动态化的给药,尤其在aPTT(activated partial thromboplastin time,活化部分凝血活酶时间)监测存在滞后性的情况下,更凸显了对智能决策支持系统的迫切需求。
为解决上述问题,来自首尔大学医院、东国大学和成均馆大学的研究团队在《IEEE Access》上发表了一项创新研究,提出了一套结合离线强化学习(Reinforcement Learning, RL)与多维度评估框架的肝素剂量个性化方案。该研究首次将批约束Q学习(Batch-Constrained Q-Learning, BCQ)引入抗凝治疗场景,利用大规模临床电子病历数据(MIMIC-III和MIMIC-IV)进行策略学习,并借助离线策略评估(Off-Policy Evaluation, OPE)和可视化分析验证策略的可靠性与可解释性,为RL在临床关键决策中的安全落地提供了重要范式。
研究人员主要采用以下几项关键技术方法:首先,从MIMIC-III和MIMIC-IV公共ICU数据库中提取接受普通肝素(UFH)治疗的成人患者数据,构建包含 demographics、vital signs、lab values 和 heparin dose 等16维状态特征;其次,将肝素剂量按百分位数离散为六类动作空间,并基于aPTT是否处于治疗区间(60–100秒)设计奖励函数;然后,使用BCQ算法在离线数据集中学习策略,通过生成网络约束动作选择以缓解分布偏移问题;最后,采用FQE、DR、WIS三种OPE方法评估策略效果,并借助t-SNE对状态表征与Q值进行可视化分析,验证其与临床目标的一致性。

研究结果

RL策略性能

BCQ策略在MIMIC-III和MIMIC-IV测试集上均显著优于临床医生策略(Behavioral Cloning, BC)及传统RL方法(DQN、Double DQN)。在MIMIC-III中,BCQ的FQE估计值为0.379(95% CI: 0.315–0.438),DR估计值为0.738(0.654–0.823),而临床医生策略的回报为负(-1.908)。在MIMIC-IV中,BCQ同样取得正向回报(FQE: 0.499; DR: 0.583),且其WIS评估在延长训练后表现出更稳定的收敛性。

外部验证

当模型在MIMIC-III上训练、在MIMIC-IV上测试时,BCQ仍保持正向回报(FQE: 0.378; DR: 0.575),而DQN与Double DQN则出现性能下降,表明BCQ具备良好的跨数据集泛化能力,克服了分布偏移带来的挑战。

Q值与临床状态的一致性

通过t-SNE对状态嵌入可视化发现,高Q值区域中59.57%的状态对应治疗性aPTT水平,而中、低Q值区域则以非治疗性状态为主(81.32%和68.99%),说明BCQ所学Q值结构与临床目标高度对齐。

动作分布分析

BCQ策略在两类数据集上均表现出比临床医生更集中的动作选择模式。在MIMIC-III中,BCQ倾向于持续选择动作1(低剂量),而临床医生则分散使用多个剂量级别;在MIMIC-IV中,BCQ以动作3为主,与临床医生偏好动作0(无给药)和2形成鲜明对比,反映其策略更加一致且可能更快达到目标aPTT。

动态状态与策略敏感性

使用动态生理特征(如血压、呼吸频率等)的模型在所有OPE指标上均优于仅使用静态特征(性别、年龄、体重)的模型,说明时间序列信息对策略学习至关重要。此外,BCQ阈值τ=0.3时策略性能最优,过高或过低均会导致效果下降。

结论与讨论

本研究证实了离线RL在肝素剂量个性化任务中的有效性与安全性。BCQ通过约束动作空间避免对分布外行为的高估,从而在保持临床合理性的同时提升抗凝治疗效果。其策略在内部测试与外部验证中均表现稳健,且通过t-SNE可视化展现出良好的可解释性,为RL在医疗决策中的实际部署提供了重要依据。
然而,研究仍存在若干局限:如动作离散化可能损失剂量连续性;奖励函数仅依赖aPTT而非硬终点(如出血或血栓事件);部分不可观测的临床因素未纳入模型。未来工作可探索连续动作空间、多目标奖励设计,并结合前瞻性临床试验进一步验证系统可靠性。
总之,该研究为ICU抗凝治疗的精细化决策提供了方法论创新与实证基础,强化了RL在高风险医疗场景中应用的可行性与价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号