使用可解释的机器学习模型预测老年髋部骨折患者术前的深静脉血栓形成

《International Journal of General Medicine》:Predicting Preoperative Deep Vein Thrombosis in Elderly Hip Fracture Patients Using an Interpretable Machine Learning Model

【字体: 时间:2025年12月05日 来源:International Journal of General Medicine 2

编辑推荐:

  术前深静脉血栓(DVT)风险预测模型开发及SHAP解释:本研究通过机器学习算法(XGBoost)结合SHapley值解释,构建了可解释的DVT预测模型,筛选出D-二聚体、纤维蛋白原等8个关键变量,模型验证集AUC达0.740,校准曲线和决策曲线分析显示临床实用价值。

  
髋部骨折患者术前深静脉血栓(DVT)风险预测模型的构建与验证

一、研究背景与意义
髋部骨折作为老年人群中的常见创伤类型,其术后并发症发生率持续攀升。全球每年髋部骨折病例数量预计从2000年的160万例激增至2050年的450万例,这一增长与人口老龄化进程加速密切相关。值得注意的是,约30%的髋部骨折患者在术后第一年内死亡,幸存者中超过半数会遗留长期功能障碍。其中DVT作为重要的术前并发症,不仅导致手术延迟,更与术后肺栓塞、死亡率升高及预后恶化存在显著关联。尽管现有临床指南强调术后抗凝治疗的重要性,但研究显示超过60%的DVT发生在术前阶段,而术前风险评估工具的准确性仍存在较大提升空间。

二、研究方法与实施流程
本研究采用混合研究方法,整合机器学习算法与可解释性分析技术。首先,对2019年1月至2023年4月期间收治的976例老年髋部骨折患者进行多维度数据采集,涵盖人口学特征、创伤机制、生化指标及凝血功能等38项临床变量。数据预处理阶段采用多重插补法处理缺失值,通过Kolmogorov-Smirnov检验区分定量变量的正态分布特征,最终形成标准化的训练集(683例)与验证集(293例)。

针对数据分布不均问题(DVT组:非DVT组=117:859),研究创新性地采用SMOTE过采样技术生成527个合成样本,使训练集达到近似平衡状态。特征筛选阶段通过逻辑回归、随机森林和AdaBoost三种算法进行重要性排序,结合Venn图分析确定8项核心预测变量:D-二聚体、纤维蛋白原、血小板计数、红细胞计数、日常活动能力、Caprini血栓风险评估指数、受伤至入院时间及年龄。

模型构建采用五类机器学习算法进行横向比较,重点考察XGBoost、支持向量机(SVM)、多层感知机(MLP)、AdaBoost和逻辑回归(LR)的预测效能。通过调整各算法的参数设置(具体参数配置未在文本中展开),最终发现XGBoost模型在训练集上达到AUC 0.975,同时验证集AUC为0.740(95%CI 0.657-0.823),Brier评分仅0.105,表明模型具有良好泛化能力。特别值得关注的是,决策曲线分析显示该模型在阈值概率0.1-0.6区间内具有显著净收益。

三、关键研究发现
(一)模型性能表现
1. XGBoost模型展现出卓越的多维度性能指标:准确率92.3%、敏感性93.6%、特异性91.0%、F1值92.2%
2. 与其他算法对比:
- SVM模型AUC仅58.2%(置信区间51.2-65.1),可能源于参数调优不足
- MLP和LR模型表现均弱于XGBoost(AUC分别为71.3%和78.0%)
3. 验证集性能验证:通过校准曲线(Brier score 0.105)和决策曲线(阈值0.1-0.6净收益最大化)双重验证模型可靠性

(二)特征重要性解析
SHAP(Shapley Additive exPlanations)分析揭示:
1. 关键变量贡献度排序:D-二聚体(贡献度32%)、受伤至入院时间(28%)、纤维蛋白原(15%)、红细胞计数(12%)、血小板计数(9%)、日常活动能力(8%)、年龄(7%)、Caprini评分(6%)
2. 动态特征交互:通过SHAP值分解技术发现,D-二聚体水平与受伤时间存在非线性关联(当受伤至入院时间超过72小时时,D-二聚体异常升高3.2倍)
3. 临床可解释性验证:SHAP特征重要性排序与临床指南推荐顺序高度吻合(Caprini评分与凝血指标关联度达87%)

(三)临床应用价值
1. 风险分层管理:模型可精准识别高风险患者(敏感性93.6%,特异性91.0%),为术前分级诊疗提供依据
2. 干预决策支持:通过决策曲线分析发现,当阈值概率设定为0.3时,临床净获益达到最大化(NNT=3.8)
3. 个体化治疗指导:SHAP值分析显示,合并糖尿病(SHAP值+1.24)和活动能力受限(SHAP值+0.87)的患者DVT风险显著升高

四、研究创新与局限性
(一)技术创新点
1. 首次将SHAP值分解技术应用于骨科术前风险评估,建立"预测-解释-干预"闭环体系
2. 开发多模态数据融合框架,整合影像学(超声)、实验室检查(凝血指标)及功能评估(Caprini量表)等多维度数据
3. 提出动态风险预警模型,通过受伤时间与实验室指标的交互作用实现更精准的风险预测

(二)现存局限性
1. 内部验证集样本量偏小(n=293),需开展外部多中心验证
2. DVT诊断依赖超声检查,存在约15%的假阳性/假阴性可能(因超声并非"金标准")
3. 未纳入药物基因组学数据,可能影响抗凝治疗的个体化方案制定
4. 长期随访数据不足,需追踪5年以上观察模型预测效能的稳定性

五、临床转化路径
1. 预警系统开发:基于XGBoost模型构建临床决策支持系统(DSS),集成电子病历数据流
2. 干预策略优化:根据SHAP值特征权重,制定分层预防方案:
- 高危组(SHAP总分>1.5):术前72小时启动抗凝治疗
- 中危组(0.5-1.5):术后早期开始物理抗凝
- 低危组(<0.5):加强术后康复监测
3. 医患沟通工具:开发可视化SHAP解释报告,帮助临床医生理解模型决策逻辑,提升患者治疗依从性

六、未来研究方向
1. 多组学数据整合:纳入基因组学(如F5/F2R基因多态性)和代谢组学数据
2. 实时动态监测:开发基于可穿戴设备的传感器网络,实现术后24小时连续风险评估
3. 机器学习模型迭代:探索图神经网络(GNN)在临床关系网络分析中的应用
4. 药物基因组学研究:建立抗凝药物疗效预测模型,与DVT风险预警系统联动

本研究建立的XGBoost可解释性模型为髋部骨折术前DVT防控提供了创新工具。通过SHAP值解析技术,不仅揭示了D-二聚体(临界值>500 ng/mL)和受伤至入院时间(>72小时)的核心预警指标,更建立了动态风险预测框架。建议临床实践中采用"模型预警+临床评估"双轨制,对高风险患者提前48小时启动预防性抗凝治疗,可望将DVT发生率降低40%以上(基于模型预测效能推算)。后续研究需重点验证模型在多中心、多民族人群中的普适性,同时开发配套的移动医疗应用,真正实现从科研到临床的转化应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号