
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多维度交叉过滤与二进制布谷鸟搜索的冠心病风险因子识别机制研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Scientific Reports 3.9
编辑推荐:
为解决冠心病(CAD)风险因子识别中存在的特征偏好偏差和多维评估不足问题,研究人员提出了一种整合多维度交叉过滤与二进制布谷鸟搜索(BCS)的两阶段机制。该研究通过卡方检验、互信息和Fisher评分从相关性、信息丰富度及距离三个维度筛选特征,结合随机森林分类器优化特征子集,最终在UCI CAD数据集上实现89%准确率及0.93 AUC值,较现有方法提升3.33-3.57%。这项研究为临床CAD风险评估提供了高效精准的计算工具。
心血管疾病是全球头号健康杀手,其中冠心病(CAD)导致的死亡占心血管疾病总死亡的80%。尽管已有Framingham研究等经典风险评估模型,但现有方法仍面临特征选择偏好性强、多维评估不足等瓶颈问题。传统单维度特征筛选可能遗漏关键生物标志物,而复杂混合方法又存在计算效率低下的缺陷。这种现状严重制约了临床CAD早期预警的精准度,亟需开发兼顾高效性与准确性的新型风险识别机制。
为突破这一技术瓶颈,Congjun Rao等研究人员在《Scientific Reports》发表论文,提出融合多维度交叉过滤与二进制布谷鸟搜索(BCS)的创新框架。研究采用UCI平台的CAD数据集(含303例样本54项特征),通过三阶段技术路线:首先基于SMOTE算法平衡数据集;随后运用卡方检验、互信息(MI)和Fisher评分从相关性、信息熵及类间距离三维度初筛特征;最后以随机森林(RF)分类精度为目标函数,采用BCS算法优化特征子集。关键技术包括多视角特征评估矩阵、Lévy飞行搜索策略(步长s=0.5)及嵌套淘汰机制(丢弃概率Pa=0.25)。
数据收集与预处理
研究对UCI CAD数据集进行系统清洗,删除"Exertional CP"等5个冗余特征,将连续变量(如血压、BMI)按临床标准离散化。通过SMOTE算法合成少数类样本,使疾病/健康样本比从216:87调整为1:1平衡状态。
多维度交叉过滤机制
构建31维低重要性特征交集:卡方检验(显著性水平α=0.05)筛选无关特征集α,同步保留MI和Fisher评分排序后31位的特征集β与γ。三维交叉验证成功剔除"K"、"Na"等21个无关变量,显著降低后续计算复杂度。
BCS特征搜索
在迭代优化中,BCS通过Sigmoid函数(式10)转换连续特征空间,当迭代达80次时RF分类精度达峰值89%。最终锁定15个关键风险因子,包括典型胸痛(Typical Chest Pain)、区域室壁运动异常(RWMA)等临床指标,其与CAD的相关系数如图6所示:

性能验证
在Framingham数据集(n=4,239)的扩展验证中,模型保持94.7% AUC值(95%CI:93.2-96.1),识别出吸烟史、家族史等新增预测因子。相比Method II-IV等对照方法,本方案运行时间缩短31-65%,准确率提升3.49-8%(表7),且特征重要性排序与临床认知高度吻合。
该研究通过创新性地整合传统统计方法与智能优化算法,建立了兼具临床解释性与计算效率的CAD风险评估新范式。特别值得关注的是,三维特征评估体系有效解决了单一方法导致的特征偏好问题,而BCS的Lévy飞行机制(α=1.5, β=0)保障了全局搜索能力。研究成果不仅为CAD早期筛查提供了包含15项核心指标的标准化评估工具(见表6),其方法论框架还可拓展至其他复杂疾病的风险预测领域。未来与电子健康档案(EHR)系统的深度整合,有望实现临床决策的实时风险预警。
研究局限性在于UCI数据集样本量有限,但通过Framingham队列的跨群体验证已初步证明其泛化能力。作者建议后续可结合深度学习架构处理更大规模多模态数据,并探索HTN(高血压)与RWMA等关键因子的交互作用机制。这项工作在医学人工智能交叉领域树立了特征选择方法学的新标杆。
生物通微信公众号
知名企业招聘