《Public Health》:Protective predictors of cardiovascular disease: an explainable AI approach
编辑推荐:
本研究基于2021年美国行为风险因素监测系统数据,开发并评估了XGBoost、卷积神经网络和随机森林三种可解释机器学习模型,以识别心血管疾病保护因素。结果表明,XGBoost模型在预测无CVD人群方面表现最佳(精确度0.90,召回率0.82,AUPRC 0.95),SHAP分析显示年轻年龄、高收入、保险覆盖及无糖尿病或抑郁为关键保护因素,为资源有限地区提供透明化预防工具。
Minh H. N. Le|Hien Quang Kha|Han H. Huynh|Phat K. Huynh|Phat Ky Nguyen|Dang Nguyen|Trang D. T. Le|Nghi V. Tran|Quoc Bui|Hoang Tran Pham|Hoai H. Le|Thomas Duong|Nhi H. H. Le|Loc Vu|Vien Truong|Thach Nguyen|Chi N. Duong|Nguyen Quoc Khanh Le
台北医学大学医学院国际医学硕士/博士学位项目,台湾台北,110
摘要
研究目的
利用具有全国代表性的调查数据开发可解释的机器学习(ML)模型,以识别预防心血管疾病(CVD)的保护因素,弥补传统临床风险评分在不同人群中的不足。
研究设计
对2021年的BRFSS数据进行横断面分析。
方法
经过数据清洗后,我们分析了116,608份成人记录。使用三种ML模型(XGBoost、卷积神经网络和随机森林)对11个人口统计和行为特征(年龄、性别、种族/民族、收入、吸烟情况、酒精使用、抑郁、糖尿病、保险状况以及水果和蔬菜摄入量)进行了训练。通过精确度、召回率、F1分数、AUROC和AUPRC来评估模型性能。使用SHapley Additive Explanations(SHAP)方法提高模型的可解释性。
结果
XGBoost的表现优于其他模型,其精确度为0.90,召回率为0.82,F1分数为0.86,AUROC为0.76,AUPRC为0.95。SHAP分析显示,较年轻的年龄、较高的收入、有保险覆盖以及没有糖尿病或抑郁是强有力的保护因素。
结论
这个可解释的XGBoost模型通过强调没有糖尿病、心理健康稳定、社会经济优势以及较年轻的年龄来预测心血管疾病的抵抗力,从而支持主动和公平的预防措施,并更有效地分配心血管疾病护理资源。
引言
心血管疾病(CVD)是全球主要的死亡原因,每年导致约2000万人死亡和近4亿伤残调整生命年(DALYs)。
初级预防措施落后于治疗进展,尤其是在多种可改变的风险因素更为普遍的弱势群体中。
传统的CVD风险模型(如逻辑回归(LR)和Cox回归)依赖于某些假设(例如线性和比例性),这些假设限制了它们捕捉社会、行为和临床因素之间复杂相互作用的能力。这些模型常常忽略关键的环境变量,如收入、心理健康和医疗资源获取情况,可能导致对弱势群体的风险估计不足。
相比之下,机器学习(ML)方法表现出更好的性能:在一项针对222,998名无心血管疾病史的韩国成年人的研究中,ML模型的表现优于汇总队列方程(PCEs)(C统计量为0.751 vs 0.738)。
在一项大型临床队列研究中,XGBoost集成模型在CVD风险预测方面优于逻辑回归(AUROC为0.76 vs 0.74)。
本研究旨在通过使用可解释的ML方法来推进公平的心血管疾病预防。
尽管Framingham风险评分和PCEs等工具已经提高了CVD风险评估的水平,
但它们往往忽略了饮食、心理健康和社会经济地位等更广泛的社会和行为因素,而这些因素对心血管疾病的结果起着关键作用。
ML模型更能捕捉这些非线性关系。
然而,尽管ML模型的预测准确性较高,但由于其“黑箱”特性,许多模型在临床实践中仍未得到充分利用,这限制了其可解释性和可信度。
这凸显了需要透明且可解释的ML方法来支持准确和公平的临床决策。
可解释AI(XAI)起源于20世纪70至90年代的早期符号系统,如MYCIN、GUIDON、SOPHIE和PROTOS,这些系统旨在同时进行推理和解释决策过程。现代方法(如SHAP)通过量化特征对个体预测的贡献来提高模型的可解释性。在医疗保健等高风险领域,理解模型是如何得出结论的对于建立信任和推广至关重要。
为了解决这些问题,本研究利用2021年的行为风险因素监测系统(BRFSS)——一个具有全国代表性的美国数据集,基于简单的人口统计和生活方式变量开发和评估可解释的ML模型。目的是识别具有心血管疾病保护作用的特征,并突出与较低CVD风险相关的因素。通过关注未被诊断为CVD的个体,本研究从以疾病为中心的预防模式转向了基于抵抗力的预防模式,提供了适用于多样化和资源有限环境的透明工具。
研究人群和数据清洗
数据集:本研究使用了2021年BRFSS的数据,这是一个持续的全国性电话调查,收集18岁及以上美国非机构化成年人的健康相关信息。该调查收集有关慢性疾病、医疗保健获取、饮食习惯和预防服务使用情况的自我报告数据。参与者通过随机数字拨号方法选取,每个家庭随机选择一名成年人。
研究人群和数据分布
CVD的患病率随年龄增长而增加(18-24岁为1.3%,≥65岁为24.6%),男性(17.2%)的患病率高于女性(12.2%)。在不同种族和民族群体中,非西班牙裔黑人的患病率最高(16.7%),而西班牙裔个体的患病率最低(9.6%)。此外,低收入人群的CVD患病率更高(23.6%),而高收入人群的患病率为7.5%。
在行为和临床变量方面,患有糖尿病(30.9%)和抑郁症的成年人...
讨论
XGB在检测无心血管疾病个体(类别0)方面优于卷积神经网络和随机森林模型。它具有高准确性、精确度、召回率和阴性预测值,因此能够可靠地排除CVD,并通过识别保护性特征来支持预防性筛查。此外,使用大规模的全国代表性数据集(n = 116,608)增强了结果的普遍性和外部有效性。
通过使用人口统计和社会经济...
伦理声明
本研究使用了2021年行为风险因素监测系统(BRFSS)的公开可用、去标识化数据。由于未包含个人级别的标识符,因此无需伦理批准。
资金
作者未为此项工作获得任何特定资助。
利益冲突声明
作者声明没有利益冲突。