HybridTabNet-QC:基于Transformer与临床特征融合的心脏病风险预测框架及其临床意义
《IEEE Open Journal of the Computer Society》:HybridTabNet-QC: A Transformer-Based Clinical Feature Fusion Framework for Heart Disease Risk Prediction
【字体:
大
中
小
】
时间:2025年12月02日
来源:IEEE Open Journal of the Computer Society 8.2
编辑推荐:
本研究针对心脏病风险预测中传统模型泛化能力差、可解释性不足的问题,提出了一种结合Transformer架构与临床元特征的混合深度学习框架HybridTabNet-QC。该模型通过注意力机制学习特征交互,并融合BMI、脉压(PP)、胆固醇-葡萄糖交互评分(CGscore)等医学指标,在公开数据集上实现了90.1%的准确率和93.6%的AUC-ROC,显著优于传统机器学习及深度学习基线。模型在特征噪声环境下表现出强鲁棒性,且通过LIME与SHAP可解释性分析验证了其临床合理性,为心血管疾病(CVD)早期筛查提供了可部署于临床决策支持系统(CDSS)的高效工具。
心血管疾病(CVD)是全球致死的首要原因,每年导致约1790万人死亡。早期准确预测心脏病风险对干预时机、资源分配和长期健康规划至关重要。然而,传统诊断方法多依赖孤立风险因素和临床经验,难以捕捉生理、行为与人口指标间复杂的非线性关系。尽管机器学习方法显示出潜力,但现有模型常受限于数据集特异性、泛化能力不足,以及对结构化临床数据领域知识的忽视。尤其深度学习模型常将特征视为扁平向量,缺乏对临床变量结构化特性的利用,且可解释性差,制约了其在真实医疗场景中的应用。
为解决上述问题,研究人员在《IEEE Open Journal of the Computer Society》上发表了题为“HybridTabNet-QC: A Transformer-Based Clinical Feature Fusion Framework for Heart Disease Risk Prediction”的研究,提出了一种混合深度学习框架HybridTabNet-QC。该框架融合了基于注意力机制的表格编码器与医学设计的元特征,旨在提升心脏病风险预测的准确性、可解释性及噪声鲁棒性。
- 1.使用Transformer编码器对分类特征进行嵌入表示,并通过多头自注意力机制(Multi-Head Self-Attention)捕捉特征间交互;
- 2.设计临床元特征(如BMI、脉压PP、胆固醇-葡萄糖交互评分CGscore)作为先验知识注入模型;
- 3.通过融合层将Transformer输出与元特征拼接,经全连接层与Dropout正则化完成分类;
- 4.利用加权交叉熵损失处理类别不平衡,并采用Adam优化器与余弦退火学习率调度提升训练稳定性;
- 5.使用LIME与SHAP进行可解释性分析,验证特征贡献与临床一致性。
数据来源于两个公开Kaggle数据集(Heart Disease Dataset与Cardiovascular Disease Dataset),经对齐、归一化、分层划分及高斯噪声增强等预处理后用于模型训练与验证。
HybridTabNet-QC在合并数据集上达到90.1%准确率、90.0% F1分数与93.6% AUC-ROC,均优于逻辑回归、随机森林、XGBoost及MLP、1D-CNN、LSTM、TabNet等基线模型。混淆矩阵显示其假阳性和假阴性率较低,分类报告进一步证实了模型在正负类别间的平衡性。
实验表明,学习率0.001、批量大小64、Dropout率0.3为最优配置。Adam与AdamW优化器收敛最快且性能稳定,其中AdamW的AUC-ROC达93.8%,略优于Adam的93.6%。
移除元特征、Transformer编码器或质量控制机制均导致性能显著下降(AUC-ROC降低1.5–2.3%),验证了各组件必要性。仅使用元特征与浅层MLP的模型表现最差,突显了混合架构的优势。
在输入特征添加10%高斯噪声后,HybridTabNet-QC准确率仅下降1.6%,优于传统模型(如逻辑回归下降5.2%)。在外部验证集上其准确率达89.5%,表明强跨数据集泛化能力。
LIME与SHAP结果显示,收缩压、胆固醇、BMI、年龄等临床公认风险因素对预测贡献最大,与医学先验知识一致,增强了模型的可信度。
HybridTabNet-QC通过融合Transformer的表示学习能力与临床元特征,实现了高精度、可解释且鲁棒的心脏病风险预测。其架构克服了传统深度学习模型对结构化医疗数据建模的不足,为临床决策支持系统提供了实用工具。研究局限性包括数据来源多样性有限、未系统评估模型公平性,以及计算开销较传统方法略高。未来工作可扩展至多模态数据集成、隐私保护训练及跨中心验证,以推动临床落地。该框架仅依赖结构化数据,易于整合至电子健康记录(EHR)系统,具备大规模部署潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号