基于类别提升与蜂群算法的可解释混合框架在心血管疾病早期检测中的突破性研究
《Scientific Reports》:An explainable hybrid framework for early detection of cardiovascular diseases using Categorical Boosting and Bees algorithm
【字体:
大
中
小
】
时间:2025年12月14日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对心血管疾病(CVD)早期检测中机器学习模型"黑箱"问题,提出了一种结合Categorical Boosting(CatBoost)和Bees算法(BEE)的混合框架。通过随机过采样(RO)和Min-Max缩放等技术处理Framingham数据集,模型准确率达98.04%,并利用SHAP和LIME实现预测结果的可视化解释,为临床决策提供了可靠工具。
心血管疾病(CVD)已成为全球范围内导致死亡的主要原因之一,每年夺去数百万人的生命。早期检测CVD对于医疗专业人员制定有针对性的治疗方案至关重要。尽管机器学习(ML)技术在疾病预测领域展现出巨大潜力,但传统模型往往存在"黑箱"问题,即模型预测过程缺乏透明度和可解释性,这限制了其在临床实践中的广泛应用。因此,开发一种既具备高精度又能提供合理解释的CVD预测模型,成为当前研究的重要方向。
为了解决上述问题,来自韦洛尔理工学院的Jayanta Sen和Sweta Bhattacharya在《Scientific Reports》上发表了一项研究,提出了一种创新的可解释混合框架,该框架结合了Categorical Boosting(CatBoost)分类器和蜂群优化算法(Bees Algorithm,BEE),旨在实现CVD的早期检测与风险因素解析。
研究人员采用的关键技术方法主要包括:利用公开的Framingham心脏研究数据集(来自Kaggle平台,包含4238个样本和16个特征);采用随机过采样(RO)技术解决数据不平衡问题;使用Pearson相关性分析和Min-Max缩放进行数据预处理;构建CatBoost-BEE混合模型进行超参数优化;并应用SHAP(Shapley Additive Explanations)和LIME(Local Interpretable Model-agnostic Explanations)技术实现预测结果的全局和局部解释。
研究首先对Framingham数据集进行了系统的数据清洗和预处理。通过中位数插补处理缺失值,利用Z-score方法(置信区间95%,Z值范围-3至3)识别并移除连续特征中的异常值。为平衡数据集中的类别分布,采用了随机过采样(RO)技术,有效避免了因样本重复可能导致的过拟合问题。此外,通过Pearson相关性分析评估特征间关联性,并结合Min-Max缩放将特征值归一化至[0,1]区间,为后续建模奠定基础。
研究的核心是提出了一种CatBoost与BEE算法相结合的混合框架。CatBoost作为一种梯度提升算法,能够有效处理分类变量,避免过拟合,从而提高预测精度。BEE算法则通过模拟蜂群觅食行为,在全局和局部空间中进行智能搜索,以优化CatBoost的关键超参数,包括学习率(α)、树深度(d)、树数量(T)、子采样比率(s)和L2正则化系数(λ)。该优化过程显著提升了模型的收敛速度和分类性能。
实验结果表明,CatBoost-BEE混合模型在测试集上达到了98.04%的准确率,精确度(Precision)为97.09%,召回率(Recall)为98.96%,F1分数(F1-score)为98.02%,特异性(Specificity)为97.16%。其受试者工作特征曲线下面积(ROC AUC)和精确率-召回率曲线下面积(PRC AUC)分别高达99.45%和99.65%,显著优于其他对比算法(如PSO-CatBoost、GWO-CatBoost等)。混淆矩阵分析显示,模型仅产生20个假阳性(False Positive)和7个假阴性(False Negative)结果,证明了其较高的可靠性。
通过SHAP和LIME技术,研究对模型预测结果进行了深入解释。SHAP摘要图显示,年龄(age)、收缩压(sysBP)和性别(Gender)是对预测结果影响最大的特征,而糖尿病(diabetes)和既往卒中史(prevalent stroke)的贡献相对较小。LIME局部解释则进一步揭示了单个样本的预测依据,例如某患者被判定为低风险(98%概率无CVD)主要归因于其年龄、收缩压和胆固醇水平等特征的正向影响。
与近年来基于同一数据集的先进模型(如随机森林、XGBoost、LightGBM等)相比,CatBoost-BEE混合模型在准确率、特异性、精确度、召回率和F1分数等多项指标上均表现最优,凸显了其综合性能的优越性。
本研究成功开发了一种高精度、可解释的CVD早期检测框架,不仅显著提升了预测性能,还通过XAI技术增强了模型透明度,为临床医生提供了直观的风险因素解析。尽管该模型在现有数据上表现出色,但其泛化能力仍需通过真实世界数据进行进一步验证。未来研究方向包括整合多中心数据、扩展至多类别疾病分类以及探索深度学习在表格数据中的应用潜力。该研究为心血管疾病的智能辅助诊断提供了重要技术支撑,推动了机器学习在医疗健康领域的实际落地。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号