编辑推荐:
为解决心脏病精准预测难题,研究人员开展多种模型预测心脏病的研究。结果显示 XGBoost 分类器表现最佳,准确率达 97.3% 。这为心脏病早期诊断提供新途径,极具科研价值,推荐科研读者阅读借鉴。
在当今社会,心脏疾病可谓是人类健康的 “头号杀手”。据世界心脏报告显示,全球每年因心血管疾病(CVD)死亡的人数高达 2050 万。心脏病的成因复杂多样,血液流向心脏减少、感染、动脉粥样硬化、高血压、糖尿病控制不佳等,都可能引发心脏病。常见的心脏病类型包括心力衰竭、心脏病发作、心肌炎、心脏骤停、心房间隔缺损、心房颤动、冠心病、心绞痛、室性心动过速和心包炎等 。这些疾病严重影响着人们的生活质量,甚至危及生命。
面对如此严峻的形势,早期准确地检测心脏病就显得尤为重要。它不仅能为患者争取宝贵的治疗时间,还能大大减轻医疗系统的负担。然而,现有的心脏病预测方法并不尽如人意,想要实现精准预测仍然困难重重。
为了攻克这一难题,来自相关研究机构的研究人员在不懈努力。他们在《<期刊原文名称>》上发表了题为《< 论文原文标题 >》的论文。经过一系列深入研究,得出结论:在众多用于心脏病预测的模型中,XGBoost 分类器在经过超参数调整且不进行特征选择的情况下,表现最为出色,其测试准确率高达 97.3%,精度为 97%,灵敏度、特异性和 F1 分数均达到 98%,AUC(曲线下面积)也达到了 98%,超越了现有的其他模型。这一成果意义非凡,为心脏病的早期预测提供了更可靠的方法,有望帮助医生更早、更准确地发现心脏病,从而为患者制定更有效的治疗方案。
研究人员为了开展这项研究,使用了多种关键技术方法。在特征选择方面,采用了信息增益、卡方检验、Fisher 判别分析(FDA)等 11 种技术,这些技术能从众多数据特征中筛选出对心脏病预测有重要意义的特征。在分类器选择上,运用了逻辑回归、决策树、随机森林、K 近邻(KNN)、支持向量机(SVM)等 21 种分类器。通过这些技术的综合运用,对心脏病预测模型进行了全面的研究和评估。
下面让我们详细看看研究的具体结果。
特征选择技术的结果
研究人员对 11 种特征选择技术进行了深入研究。在信息增益方面,通过分析发现,年龄、性别、静息血压、空腹血糖和静息心电图等特征的重要性得分较低,对心脏病预测贡献较小,因此将它们从数据集中去除。卡方检验则根据特征的 p 值来选择特征,不同的阈值会筛选出不同的特征组合。FDA 根据 Fisher 得分,将数据集分为不同的特征集进行预测。方差阈值技术去除了方差低于设定阈值的特征,如性别、空腹血糖等。MAD 分析发现,性别、胸痛类型等部分特征的 MAD 值较低,歧视能力较弱,而年龄、胆固醇等特征携带了较多信息。DR 分析表明,年龄、胸痛类型等特征的色散比为零,被认为与心脏病预测无关。Relief 技术筛选出了胸痛类型、运动性心绞痛和 ST 段斜率等重要特征。Lasso 正则化确定了性别、胸痛类型等特征可作为最终特征集。随机森林重要性技术则去除了重要性得分低于 0.1 的特征,如年龄、静息血压等。LDA 根据特征重要性得分设置阈值,得到了不同的特征集。PCA 通过计算解释方差比(EVR),选择了不同阈值下的特征集。
未进行特征选择的分类器结果
研究人员将 21 种分类器直接应用于整个数据集,以评估它们的性能。逻辑回归(LR)的训练准确率为 80.99%,测试准确率为 83.2%,其混淆矩阵显示有 86 个真阳性、21 个假阴性、19 个假阳性和 112 个真阴性,精度、灵敏度、特异性和 F1 分数分别为 84%、86%、80% 和 85%,AUC 为 91%,表现尚可。决策树(DT)经过超参数调整后,训练准确率为 88.1%,测试准确率为 84.9%,预测结果中真阳性和真阴性分别为 80 和 122,精度、灵敏度、特异性和 F1 分数分别为 82%、93%、75% 和 87%,AUC 为 92%,在识别实际阳性方面表现较好,但在避免假阳性方面有所欠缺。随机森林(RF)在超参数调整前后结果相同,训练和测试准确率分别为 90% 和 91.6%,预测表现不错,精度、灵敏度和 F1 分数均为 92%,特异性为 91%,AUC 为 94%。KNN 分类器在使用不同数量的最近邻居进行测试时,5 个最近邻居时效果最佳,但测试准确率仅为 71.9%,各项指标表现不佳,AUC 为 78%,不太适合用于心脏病预测。SVM 模型的测试准确率为 84.9%,训练准确率为 82.8%,预测的真阳性和真阴性数量分别为 88 和 114,精度、灵敏度、特异性和 F1 分数分别为 86%、87%、82% 和 86%,AUC 为 90%,表现相对较好。高斯朴素贝叶斯(GNB)的训练和测试准确率分别为 83.3% 和 85.7%,精度、灵敏度、特异性和 F1 分数分别为 86%、88%、83% 和 87%,AUC 为 91%。XGBoost 模型在超参数调整前就有不错的表现,训练准确率为 100%,测试准确率为 94.5%,精度为 94%,灵敏度为 96%,特异性为 93%,F1 分数为 95%,AUC 为 98%。调整超参数后,各项指标进一步提升,测试准确率达到 97.3%,精度、灵敏度、特异性和 F1 分数均为 98%,AUC 保持在 98%,表现十分突出。AdaBoost 算法在调整 “n_estimators” 参数后,测试准确率从 87% 提升到 89%,其他指标也有所改善,AUC 达到 94%。SGD 模型在超参数调整后,测试准确率为 75.2%,各项指标表现一般,AUC 为 76%。梯度提升分类器(GB)在调整超参数后,训练和测试准确率分别为 99.9% 和 95.4%,精度、灵敏度、特异性和 F1 分数分别为 95%、97%、94% 和 96%,AUC 为 98%,性能接近超参数调整后的 XGBoost 模型。Extra 树分类器(ETC)在超参数调整前后,训练和测试准确率分别为 87.4% 和 87.8%,调整后测试准确率为 84%,各项指标表现一般,AUC 为 94%。LightGBM 模型预测准确,测试准确率为 92.44%,精度、灵敏度、特异性和 F1 分数分别为 96%、90%、95% 和 93%,AUC 为 97%,且运行时间较短。MLP 模型的训练和测试准确率分别为 84.7% 和 85.3%,预测能力尚可,精度、灵敏度、特异性和 F1 分数分别为 85%、89%、81% 和 87%,AUC 为 89%。RNN 模型测试准确率为 89.5%,精度、灵敏度、特异性和 F1 分数分别为 94%、79%、94% 和 86%,AUC 为 82%。LSTM 模型测试准确率为 87%,在预测阴性方面表现不佳,精度、灵敏度、特异性和 F1 分数分别为 95%、66%、95% 和 78%,AUC 为 81%。GRU 模型测试准确率为 89.1%,精度、灵敏度、特异性和 F1 分数分别为 94%、78%、94% 和 85%,AUC 为 86%。Bi-LSTM 模型测试准确率为 87.8%,精度、灵敏度、特异性和 F1 分数分别为 94%、71%、94% 和 81%,AUC 为 83%。Bi-GRU 模型测试准确率为 90.3%,在预测阴性方面存在不足,精度、灵敏度、特异性和 F1 分数分别为 92%、77%、92% 和 84%,AUC 为 84%。CNN 模型测试准确率为 87.85%,精度、灵敏度、特异性和 F1 分数分别为 95%、72%、95% 和 82%,AUC 为 84%。混合模型测试准确率为 90.34%,在预测阴性方面有所欠缺,精度、灵敏度、特异性和 F1 分数分别为 92%、76%、92% 和 83%,AUC 为 94%。
进行特征选择后的分类器结果
研究人员将特征选择技术与分类器相结合,进一步评估模型性能。在信息增益特征选择后,XGBoost 模型表现最佳,准确率为 94.1%,精度、灵敏度和 F1 分数为 95%,特异性为 94%,AUC 为 96%,GB 模型在灵敏度和 AUC 方面表现较好,可作为备选。卡方检验特征选择后,XGBoost 和 GB 分类器表现出色且评估指标相近,但 GB 在 AUC 上略胜一筹,RF 在树基分类器中表现良好,混合模型和 CNN 在深度学习分类器中表现突出。FDA 特征选择后,XGBoost 和 GB 性能良好,XGBoost 在部分指标上优于 GB,总体 XGBoost 表现更优。方差阈值特征选择后,深度学习分类器结果相近,XGBoost 和 GB 优于其他分类器,其他 Boosting 算法表现不如它们。MAD 特征选择后,多数分类器性能较差,只有 XGBoost、GB、CatBoost 和 LightGBM 等 Boosting 算法的 AUC 超过 80%,其中 XGBoost 各项指标较为平衡。色散比特征选择后,树基分类器和 Boosting 算法中,XGBoost 和 GB 表现较好,XGBoost 在各项评估指标上均超过 90%。Relief 特征选择后,XGBoost 和 GB 表现出色,深度学习分类器在灵敏度上有所欠缺,树基分类器表现尚可,SGD 表现平衡。Lasso 特征选择后,Bi-LSTM 准确率最高,但在灵敏度和 F1 分数上存在不足,MLP 各项指标均超过 80%,树基分类器中 RF 准确率最高但特异性不足,XGBoost 在 Boosting 分类器中表现突出,深度学习分类器在灵敏度、F1 分数和 AUC 上表现不佳。RF 重要性特征选择后,RF 在树基分类器中表现较好,深度学习分类器在精度和特异性上表现尚可,但在其他指标上得分不高,XGBoost 表现最佳,各项评估指标均超过 90%。LDA 特征选择后,多数分类器在特定特征集下表现较好,XGBoost 和混合模型测试准确率最高,XGBoost 和 GB 各项评估指标表现不错,混合模型在灵敏度和 F1 分数上存在不足,树基分类器表现尚可,部分 Boosting 算法表现不佳。PCA 特征选择后,多数分类器测试准确率不超过 80%,RF、XGBoost、GB 和 Bi-LSTM 表现相对较好,深度学习模型在灵敏度、F1 分数和 AUC 上存在不足。
研究人员还将 XGBoost 模型与其他现有模型进行了对比。结果发现,XGBoost 模型在所有评估指标上都表现卓越,显著超越了其他模型。比如,一些 DNN 模型在不同数据集上的准确率、灵敏度和 AUC 等指标都不如 XGBoost 模型。这充分证明了 XGBoost 模型在心脏病预测方面具有良好的泛化能力和分类稳健性。
总的来说,这项研究通过广泛的实验,对多种特征选择技术和分类器进行了全面评估,找到了最适合心脏病预测的 XGBoost 模型。这一研究成果为心脏病的早期预测提供了重要的技术支持,有助于医生更准确地判断患者是否患有心脏病,从而及时采取治疗措施,改善患者的预后。不过,研究也存在一些局限性,比如使用的数据集相对有限,可能影响模型在不同人群中的泛化能力。未来,研究人员可以通过生成对抗网络(GANs)扩充数据集,结合物联网设备获取更多患者数据,深入研究可解释人工智能(XAI)技术让模型预测更具可解释性,运用联邦学习技术保护患者数据隐私,还可以开发针对常见疾病的小语言模型并做成安卓应用,为患者提供疾病预防建议。相信随着研究的不断深入,心脏病预测技术将不断完善,为人类健康带来更多保障。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�