
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于SHAP可解释机器学习的冠心病合并2型糖尿病风险因素探索与分析
【字体: 大 中 小 】 时间:2025年08月14日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对冠心病(CHD)合并2型糖尿病(T2DM)的临床预测难题,采用SMOTENC算法处理数据不平衡问题,结合LASSO回归和七种机器学习模型,发现糖尿病病史、血糖(BG)和糖化血红蛋白(HbA1c)是CHD-DM2的关键风险因素。研究通过SHAP值解释模型输出,为临床决策提供可解释的AI工具,具有重要临床应用价值。
随着中国老龄化进程加速,多病共存现象日益突出,其中冠心病(CHD)与2型糖尿病(T2DM)的共病组合在老年人群中尤为常见。CHD作为心血管疾病的主要亚型,其发病机制涉及冠状动脉器质性狭窄或阻塞导致心肌缺血缺氧,临床表现为心绞痛、心律失常甚至猝死。而高血糖或糖尿病已被证实是CHD可干预的重要危险因素,T2DM不仅成为CHD最重要的共病之一,其发病率持续上升且与患者死亡率显著相关。传统诊断方法如冠状动脉造影、CT血管成像等需要专业设备和人员,成本高且可及性低,因此开发低成本、便捷有效的无创诊断工具对CHD-DM2早期识别至关重要。
新疆医科大学第一附属医院的研究人员回顾性收集了2001-2018年间29,960例心血管疾病患者的临床数据,最终纳入12,400例符合条件的CHD和CHD-DM2患者。研究采用SMOTENC算法结合themis包进行数据预处理,通过单因素分析和LASSO回归筛选最终预测因子,构建并验证了包括逻辑回归、随机森林(RF)、XGBoost等七种机器学习模型。主要技术方法包括:1)使用SMOTENC算法处理类别不平衡数据;2)采用LASSO回归进行特征选择;3)构建七种机器学习模型并进行十折交叉验证;4)应用SHAP值进行模型可解释性分析。
研究结果显示,在基线特征分析中,CHD-DM2组与CHD组在62项指标上存在显著差异,包括体重、职业分布、高血压病史等。通过LASSO回归最终确定了25个预测变量,其中RF模型在平衡数据集上表现最优,训练集和测试集的AUC均达到1。SHAP分析揭示糖尿病病史、BG和HbA1c是CHD-DM2风险的三大主要贡献因素。模型解释性可视化方面,SHAP蜂群图、瀑布图和依赖图等清晰地展示了各特征对预测结果的贡献方向和程度。
研究结论强调,糖尿病病史、血糖水平和糖化血红蛋白是CHD-DM2发生发展的关键风险因素。这一发现为临床实践提供了重要指导:医疗机构应加强对这类患者的监测,记录高危因素存在情况并实施针对性干预策略。该研究创新性地将可解释机器学习应用于CHD-DM2风险预测,不仅提高了预测准确性,还通过SHAP值赋予模型临床可解释性,为人工智能技术在医疗领域的应用提供了范例。随着医疗基础设施和研究的不断进步,这种基于机器学习的预测模型有望发展为更有效的CHD-DM2控制和治疗策略,最终改善患者预后。
生物通微信公众号
知名企业招聘