基于逻辑回归、SVM、KNN 和随机森林交叉验证的心脏病预测对比分析:提升准确率的关键探索

【字体: 时间:2025年04月19日 来源:Scientific Reports 3.8

编辑推荐:

  为解决心脏病预测模型的最优验证技术未充分探索的问题,研究人员开展了使用逻辑回归(LR)、支持向量机(SVM)、K 近邻(KNN)和随机森林(RF)交叉验证对心脏病进行预测的研究。结果表明随机森林模型宏观精度最高,该研究对提高模型准确性和可靠性意义重大。

  在全球范围内,心脏病如同一个隐匿的杀手,时刻威胁着人类的生命健康,是导致死亡的主要原因之一。随着科技的发展,机器学习技术为心脏病的诊断带来了新的曙光,有望提高诊断的精准度。然而,目前对于构建强大的心脏病预测模型,其最优验证技术却尚未得到充分探索,这无疑成为了医学领域的一个关键难题。在此背景下,来自印度 IIS(被视为大学)、尼泊尔博卡拉大学等多个机构的研究人员展开了深入研究,其成果发表在《Scientific Reports》上。
这项研究旨在通过使用逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)、K 近邻(K-Nearest Neighbor,KNN)和随机森林(Random Forest,RF)这四种技术进行交叉验证,从而实现对机器学习模型最准确的验证精度预测。研究人员希望借此帮助医学从业者更轻松地选择最合适的模型,用于心脏病的分类和预测。

研究人员在开展研究时,主要运用了以下关键技术方法:首先是数据预处理,针对包含 13 个分类属性的心脏病数据集,通过均值插补数值特征、卡方方法插补分类特征并进行归一化处理;接着使用独热编码(One Hot Encoder)对分类变量进行处理,将数据扩展到 76 列;然后将数据按 80:20 进行训练集和测试集的划分,并采用 5 折交叉验证评估模型性能;最后利用学习曲线、混淆矩阵和 ROC-AUC 曲线等对模型进行分析。

研究结果如下:

  • 相关性分析:通过热图分析心脏病数据集的相关性,发现性别(sex)、胸痛类型(cp)等部分特征的均方误差较低,而运动诱发心绞痛(exang)、旧峰值(oldpeak)等特征误差值较高。二元逻辑回归分析显示,自变量能够解释 58% 的因变量方差,调整后的 R2为 54%,但部分变量与因变量关系不显著,因此需要进一步评估模型。
  • 模型性能评估(未使用交叉验证):默认机器学习模型中,逻辑回归和 K 近邻模型准确率最高,达到 81.9%,SVM 线性核模型为 78.6%,随机森林模型也是 78.6%。不过在评估宏观平均指标如精度、召回率和 F1 分数时,随机森林模型表现更优,准确率范围为 93 - 97%。
  • 模型性能评估(使用交叉验证):经过 5 折交叉验证,随机森林和 K 近邻模型准确率最高,达到 84.15%,逻辑回归为 83.81%,SVM 为 82.49%。随机森林在某些情况下最高准确率可达 90%。通过学习曲线分析发现,不同模型在训练和验证过程中表现出不同的趋势,部分模型存在过拟合现象。
  • 综合评估:综合各项评估指标,随机森林模型在预测心脏病方面表现最为出色,其宏观准确率达到 94%,精度为 97%。SVM 在识别心脏病病例和非病例时准确率分别为 89% 和 81%,KNN 模型的宏观平均准确率为 93% 。

研究结论和讨论部分指出,交叉验证是评估机器学习模型的有效方法,能有效避免过拟合和欠拟合问题。在多个测试模型中,随机森林模型的整体表现最佳。不过,将机器学习应用于医疗领域时,还需要解决如偏差、可解释性和数据隐私等关键问题。未来研究可以进一步优化特征选择技术,利用集成模型并结合更大的真实数据集,以提高模型的稳健性和泛化能力。这项研究为心脏病预测提供了重要的参考依据,对推动机器学习在医疗领域的应用具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号