编辑推荐:
为解决冠心病(CAD)患者降脂治疗中他汀剂量选择问题,研究人员开展利用机器学习预测接受中等剂量他汀治疗的 CAD 患者低密度脂蛋白胆固醇(LDL-C)达标可能性的研究。结果显示 3 种模型有一定预测能力,XGBoost 表现更优。该研究有助于个性化治疗决策。
在心血管健康领域,低密度脂蛋白胆固醇(LDL-C)就像一颗 “定时炸弹”,它是心血管疾病发展的重要危险因素。降低 LDL-C 水平能有效减少心血管疾病的死亡率和并发症。目前,他汀类药物是降低 LDL-C 的常用手段,尤其是高剂量他汀,被广泛用于预防心血管事件复发。但高剂量他汀并非 “万能药”,它可能带来糖尿病、肝功能异常等副作用,在亚洲人群中表现得更为明显。而且,不同患者对他汀的反应存在差异,这使得临床实践中他汀剂量的选择变得棘手。因此,如何精准预测患者使用中等剂量他汀时 LDL-C 的达标情况,实现个性化降脂治疗,成为了医学领域亟待解决的问题。
韩国首尔峨山医疗中心(Asan Medical Center)的研究人员针对这一难题展开研究。他们旨在开发一种机器学习(ML)模型,预测因冠心病住院且接受中等剂量他汀治疗患者的 LDL-C 达标可能性。该研究成果发表在《Scientific Reports》上,为心血管疾病的治疗提供了新的思路和方法。
研究人员主要运用了以下关键技术方法:首先,从峨山医疗中心的电子病历(EMRs)数据库中提取数据,该数据库包含大量患者的诊断、用药、检验结果等信息。然后,对数据进行预处理,包括采用独热编码(one - hot encoding)将分类变量转化为数值向量,对缺失值进行填充,对数值变量进行归一化处理。接着,利用递归特征消除(RFE)进行特征选择,减少模型的特征数量,提升性能。最后,构建并评估极端梯度提升(XGBoost)、随机森林(Random Forest)和逻辑回归(Logistic Regression)三种 ML 模型,使用 Shapley 可加性解释(SHAP)分析来解读模型预测结果。
研究结果如下:
- 基线特征:研究共纳入 9402 名患者,这些患者被分为 LDL-C 达标组(LDL-C 水平低于 70mg/dL,4525 人)和未达标组(4877 人)。两组患者在年龄、性别、合并症、用药史和实验室检查结果等方面存在显著差异。例如,达标组患者的平均年龄略高于未达标组,男性比例更高,且在慢性肾脏病、糖尿病等合并症的发生率以及总胆固醇、HDL-C 等血脂指标上也存在差异。
- ML 模型性能:对三种模型进行评估,在特异性、准确性和阳性预测值(PPV)等指标上,XGBoost 表现突出。XGBoost 的特异性为 0.644(95% CI:[0.628 - 0.661]),准确性为 0.659(95% CI:[0.641 - 0.677]),PPV 为 0.642(95% CI:[0.617 - 0.669]),均显著优于随机森林和逻辑回归模型。三个模型的平均受试者工作特征曲线下面积(AUROC)达到 0.695。
- 特征减少后的 ML 模型:运用 RFE 对模型进行特征选择后,XGBoost 模型的特征数量减少了 52%,随机森林和逻辑回归模型均减少了 43%。尽管特征数量减少,但三个模型在大多数评估指标上仍保持或提升了性能。
- ML 模型校准:通过校准曲线和 Brier 分数评估模型的校准情况,XGBoost 模型的 Brier 分数最低,为 0.218(95% CI:[0.215 - 0.221]),表明其预测概率与实际结果的一致性最好,校准效果最佳。
- 可解释的 ML 模型:通过 SHAP 分析,发现总胆固醇水平较低以及服用依折麦布 / 瑞舒伐他汀的患者更有可能达到 LDL-C 目标水平。SHAP 瀑布图还展示了不同患者的特征对预测结果的影响,为临床决策提供了更直观的依据。
研究结论表明,基于 ML 的模型能够有效预测接受中等剂量他汀治疗的 CAD 患者的 LDL-C 达标可能性。XGBoost 模型在预测性能和校准方面表现出色,且通过 SHAP 分析提高了模型的可解释性。这一研究成果有助于临床医生识别可能从中等剂量他汀治疗中获益的患者,避免高剂量他汀带来的潜在风险,支持个性化治疗策略的制定,为心血管疾病患者的 LDL-C 管理提供了有力的工具,对改善患者的治疗效果和安全性具有重要意义。然而,该研究也存在一定的局限性,如基于回顾性队列设计、单中心数据,可能存在基线特征偏差,研究结果的普遍性受到限制。未来还需进一步整合先进算法和多中心数据,优化模型和研究方法,以提升研究成果的可靠性和适用性。