编辑推荐:
为解决糖尿病(DM)和慢性肾脏病(CKD)患者心血管事件(CVEs)预测难题,波兰西里西亚医科大学研究人员开展相关机器学习研究。结果显示 LGBM 模型预测性能佳。该研究为临床预测提供新思路,强烈推荐科研读者阅读。
波兰西里西亚医科大学(Medical University of Silesia)扎布热医学院内科、糖尿病学和肾脏病学系的 Hanna Kwiendacz 等人在《Cardiovascular Diabetology》期刊上发表了题为 “Predicting major adverse cardiac events in diabetes and chronic kidney disease: a machine learning study from the Silesia Diabetes-Heart Project” 的论文。这篇论文在糖尿病和慢性肾脏病领域意义重大,它借助机器学习技术探索心血管事件的预测模型,为该领域的临床决策和患者管理提供了新的思路与方法 。
研究概述
该研究旨在利用机器学习(ML,Machine Learning)模型预测糖尿病(DM,Diabetes Mellitus )和慢性肾脏病(CKD,Chronic Kidney Disease)患者的心血管事件(CVEs,Cardiovascular Disease Events)。研究人员从西里西亚糖尿病心脏项目(Silesia Diabetes-Heart Project)的常规护理数据集选取 1116 名患者,构建 5 种机器学习模型(逻辑回归 LR、随机森林 RF、支持向量分类 SVC、轻梯度提升机 LGBM 和极端梯度提升机 XGBM)进行预测,通过多种评估指标比较模型性能,并运用 Shapley 可加解释(SHAP,Shapley Additive exPlanations)分析模型的可解释性。
研究背景
慢性肾脏病是糖尿病常见的并发症,约 40% 的糖尿病患者会受其影响。糖尿病和慢性肾脏病并存,会对心血管产生多重不良影响,显著增加患者心血管疾病风险和过早死亡风险。鉴于大量糖尿病合并慢性肾脏病患者面临心血管疾病威胁,急需更有效的早期风险评估和干预策略。
传统的风险预测方法在面对糖尿病和慢性肾脏病患者时存在局限性。这两类疾病患者的表型高度异质,传统方法难以准确捕捉复杂的风险因素关系,导致预测效果不佳。虽然此前有研究尝试建立预测模型,但预测能力有限。因此,探索新的预测方法对改善这部分患者的管理至关重要。
近年来,人工智能在心血管疾病的诊疗和临床结局预测方面得到广泛应用。机器学习作为人工智能的分支,能自动从数据中学习模式并进行预测。相比传统方法,它能更好地分析临床、人口统计学和实验室变量间的复杂非线性关系,实现更精准的风险分层,还可依据新数据动态更新预测。不过,此前针对糖尿病合并慢性肾脏病患者心血管事件预测的机器学习研究较少,而精准且可解释的预测模型对实现个性化医疗意义重大,这也正是开展此次研究的重要原因 。
研究方法
- 研究设计:西里西亚糖尿病心脏项目是一项单中心、观察性、前瞻性队列研究。研究对象为 2015 年 1 月至 2023 年 3 月在波兰扎布热内科和糖尿病科住院的糖尿病患者。研究排除终末期癌症或住院期间死亡的患者。记录患者的基线特征,包括人口统计学数据、病史、入院时生命体征、实验室检查结果和住院期间用药情况。
- 随访与终点:2021 年 3 月至 2023 年 11 月,通过电话联系患者或其亲属,确定患者出院后是否发生新的心血管事件,并记录事件发生的具体日期。研究终点为复合心血管事件,包括非致命性心肌梗死、新发心力衰竭、非致命性中风、新发心房颤动、接受经皮冠状动脉介入治疗或冠状动脉旁路移植术、因心血管疾病住院或死亡。
- 机器学习分析参与者:选取糖尿病合并慢性肾脏病患者作为研究对象。慢性肾脏病的诊断标准为持续 3 个月以上估计肾小球滤过率(eGFR,estimated glomerular filtration rate)<60 mL/min/1.73m2 ,或持续尿白蛋白排泄(UAE,urine albumin excretion )≥30mg/g,或两者兼具。
- 特征选择:原始数据集包含 81 个变量,先排除缺失值超过 20% 的变量,对剩余缺失值采用多重填补法处理。通过共线性分析评估变量间相关性,若两个变量的 Spearman 相关性 > 0.6,则根据临床重要性选择其中一个进入后续特征选择流程。将患者随机分为训练队列和验证队列,比例为 7:3。运用单因素逻辑分析、Boruta 算法和最小绝对收缩和选择算子(LASSO,Least Absolute Shrinkage and Selection Operator)回归筛选特征变量,最终结合临床重要性确定用于机器学习分析的特征。
- 模型构建与性能评估:基于模型多样性、对不同数据类型的适应性、稳健性、过拟合处理能力和实际适用性,构建 5 种机器学习模型。在训练过程中,对每个模型进行超参数优化并尽可能采用早停法,利用 5 折交叉验证对训练数据进行处理。由于事件和非事件数量不平衡,构建模型时使用样本权重。通过受试者工作特征曲线(ROC,Receiver Operating Characteristic Curve)下面积(AUC,Area Under Curve)、准确率、特异性、敏感性、精度、召回率、F1 分数和 G 均值等指标评估模型的预测性能。
- 模型可解释性分析:运用 SHAP 方法对模型输出进行解释,通过 SHAP 值衡量全局和局部特征重要性、变量间的依赖和相互作用,并可视化特征。
- 统计分析:使用 R 软件(版本 4.3.3)进行数据预处理、数据集划分和特征选择;使用 Python(版本 3.11.5)实现机器学习算法、评估预测性能和可视化 LGBM 模型。以双侧 P<0.05 为具有统计学意义。
研究结果
- 研究队列特征:在 3056 名糖尿病患者中,719 人无结局数据,27 人尿白蛋白排泄值缺失,1194 人 eGFR>60 mL/min 且 UAE<30mg/g,最终 1116 名糖尿病合并慢性肾脏病患者纳入研究。在中位 3.1 年的随访期内,心血管事件发生率为 14.1%(157/1116)。与未发生心血管事件的患者相比,发生心血管事件的患者年龄更大、女性比例更高,高血压、冠心病(CAD,Coronary Artery Disease)、既往中风、全身性动脉粥样硬化、心力衰竭和高尿酸血症等合并症的患病率更高;2 型糖尿病比例更高,糖尿病视网膜病变发生率更高,eGFR 更低;空腹血糖水平相当,但未发生心血管事件的患者糖化血红蛋白(HbA1c)水平更高。此外,发生心血管事件的患者更多使用 β 受体阻滞剂、阿司匹林、氯吡格雷和袢利尿剂。
- 特征选择:原始 81 个变量中,7 个因缺失值较多被排除,经共线性分析后又排除 43 个变量,最终 31 个变量进入特征选择流程。单因素逻辑分析确定了 13 个变量,Boruta 和 LASSO 回归分析确认了 8 个重要变量、6 个暂定变量,LASSO 回归还确定了 12 个潜在预测变量,综合考虑最终选择 10 个特征(年龄、性别、eGFR、HbA1c、CAD、甘油三酯葡萄糖(TyG,Triglyceride Glucose)指数、心力衰竭、C 反应蛋白(CRP,C-reactive Protein)、高血压、中风病史)用于机器学习分析。
- 机器学习模型评估:5 种机器学习模型中,LGBM 模型的 AUC 最高(0.740,95% 置信区间 0.738 - 0.743),RF、SVC 和 XGBM 模型的 AUC 相近(RF 为 0.707,95% 置信区间 0.704 - 0.709;SVC 为 0.707,95% 置信区间 0.704 - 0.710;XGBM 为 0.710,95% 置信区间 0.707 - 0.713),LR 模型的 AUC 最低(0.621,95% 置信区间 0.618 - 0.623)。LGBM 模型在其他指标上也表现较好,如准确率(0.723)、特异性(0.739)、精度(0.923)和 F1 分数(0.820)。
- 模型可解释性:LGBM 模型预测性能最佳,因此选择其进行模型解释。基于 LGBM 模型的特征重要性分析显示,最重要的 5 个特征依次为年龄、eGFR、CRP、TyG 指数和 HbA1c。SHAP 分析表明,eGFR、年龄和 TyG 指数是最重要的 3 个特征,较低的 eGFR、较高的年龄和较高的 TyG 指数与模型预测结果增加相关。通过 SHAP 值还能分析特征间的相互作用和依赖关系,并可视化每个特征对预测概率的影响。
研究结论与讨论
研究表明,基于 10 个特征构建的机器学习模型,尤其是 LGBM 模型,在预测糖尿病合并慢性肾脏病患者的心血管事件方面具有可接受的性能。eGFR 降低、年龄增长和炎症标志物升高显著增强了模型的预测能力。
此前相关研究多聚焦于糖尿病或慢性肾脏病单一疾病的心血管事件预测,针对两者合并情况的研究较少。本研究的创新之处在于专门针对糖尿病合并慢性肾脏病患者进行心血管事件预测,且随访期较长,能更好地评估预后相关因素。研究中使用 3 种经典方法进行特征选择,结果稳健,确定的关键特征与以往研究有一定重合,也发现了新的重要特征,如 TyG 指数。
机器学习模型各有优劣,LGBM 模型在本研究中表现最佳,但模型性能受数据质量、数量、算法差异、模型复杂度和超参数等多种因素影响。此外,机器学习算法常被视为 “黑箱”,SHAP 方法虽有助于解释模型,但也存在局限性,如计算 SHAP 值的近似方法依赖特征独立性假设,在高维数据集解释困难,且只能说明特征与模型预测的相关性,无法直接体现对实际结果的贡献。
本研究也存在一些局限性。样本中慢性肾脏病患者数量相对较少,事件发生率低,数据不平衡影响模型预测性能;研究缺乏心脏结构和功能相关特征,虽临床常规添加困难,但会影响预测变量的完整性;患者临床特征异质性大,降低了模型预测性能;仅构建 5 种常用模型,可能存在其他性能更优的模型;研究未进行外部验证,模型普适性有待进一步确认。
尽管如此,本研究仍具有重要意义。它为糖尿病合并慢性肾脏病患者心血管事件的预测提供了新的思路和方法,通过机器学习模型发现的重要特征有助于临床医生更精准地评估患者风险。未来研究可进一步优化模型,纳入更多数据和特征,开展外部验证,探索基于机器学习风险分层的治疗策略优化,有望改善这部分患者的预后。