编辑推荐:
研究人员构建机器学习模型探究人口、饮食与动脉粥样硬化性心血管疾病(ASCVD)关系,XGBoost 模型表现最佳,意义重大。
动脉粥样硬化性心血管疾病(Atherosclerotic Cardiovascular Disease,ASCVD)是一类严重危害人类健康的疾病,它由动脉粥样硬化引发,就像血管里悄悄筑起了 “小城墙”,使得动脉逐渐狭窄,阻碍血液流动,进而可能诱发心肌梗死、脑血管意外等严重后果。目前,尽管已知高血压、高血糖、高血脂和肥胖等是 ASCVD 的风险因素,但对于人口特征和饮食模式与 ASCVD 之间的关联,研究还不够深入。而且,传统统计方法在研究这些关联时存在诸多限制,如对数据要求苛刻,大量非结构化数据无法利用。在这个大数据时代,如何更精准地挖掘数据背后的秘密,找到预防和控制 ASCVD 的有效方法,成为了医学领域亟待解决的问题。
为了攻克这些难题,来自芜湖市第二人民医院心内科和中国医学科学院 & 北京协和医学院医学信息研究所的研究人员展开了一项重要研究。他们的研究成果发表在《BMC Medical Informatics and Decision Making》上,为我们认识 ASCVD 带来了新的视角。
研究人员使用了美国国家健康和营养检查调查(U.S. National Health and Nutrition Examination Survey,NHANES)1999 - 2018 年的数据集,这个数据集就像一个装满医学宝藏的 “百宝箱”,包含了丰富的人口健康信息。研究人员从中筛选出 40,298 名参与者,并基于 20 个人口特征,运用 5 种机器学习(Machine Learning,ML)算法 —— 逻辑回归(Logistic Regression,LR)、人工神经网络(Artificial Neural Networks,ANNs)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和极端梯度提升(eXtreme Gradient Boosting,XGBoost),构建模型来预测 ASCVD。
在研究过程中,研究人员采用了多种关键技术方法。首先是数据预处理,他们排除了 18 岁以下、ASCVD 数据缺失以及含有其他缺失数据的样本,针对数据不平衡的问题,使用合成少数过采样技术和编辑最近邻(Synthetic Minority Over-sampling Technique and Edited Nearest Neighbor,SMOTEENN)重采样技术进行处理,并利用最小 - 最大归一化方法将数据特征值归一化到 [0, 1] 范围。然后,通过 10 折交叉验证来评估模型性能,使用受试者工作特征曲线下面积(Area Under the Curve,AUC)、准确率、精确率、召回率和 F1 评分等指标进行衡量。最后,运用 SHapley Additive exPlanations(SHAP)分析来解释模型输出,探究各特征对结果的贡献。
研究结果令人瞩目。在模型性能方面,5 种模型都展现出了不错的效率和稳定性,其中 XGBoost 模型脱颖而出,AUC 达到 0.8143,F1 评分高达 0.8631,表现最佳。通过 SHAP 分析,研究人员发现了诸多与 ASCVD 风险相关的因素。年龄、贫困收入比(Poverty Income Ratio,PIR)、吸烟状况、家庭规模、性别和种族等因素对 ASCVD 风险影响显著。具体来说,年龄增长、男性、吸烟会增加 ASCVD 风险,而较高的 PIR 在 60 岁以下人群中具有保护作用,在 60 岁及以上人群中则呈现负面影响。
在饮食方面,研究也有重要发现。咖啡饮用、适量摄入膳食盐和蔬菜对预防 ASCVD 有益;减少精制谷物摄入与降低 ASCVD 风险之间不存在线性关系;总乳制品摄入量越高,ASCVD 风险越低;两天总热量摄入为 5,000 千卡似乎是降低 ASCVD 风险的理想值,热量摄入与 ASCVD 风险呈现非线性关系。
研究结论表明,XGBoost 模型在确定 NHANES 1999 - 2018 数据集中参与者的人口特征、饮食摄入与 ASCVD 之间的关系方面,具有显著的有效性和精确性。这一研究成果意义非凡,它为深入了解 ASCVD 的发病机制提供了新的依据,有助于制定更有针对性的预防和干预策略。比如,对于不同年龄、性别、经济状况的人群,可以根据这些研究结果给出个性化的饮食建议,从而降低 ASCVD 的发病风险。
不过,这项研究也存在一些局限性。由于计算限制,未对种族、年龄等特征进行亚组分析;ASCVD 诊断部分依赖问卷调查的自我报告数据,可能存在信息偏差;约 10% 的病例存在变量缺失,影响分析准确性;SHAP 分析结果基于单一训练 / 测试分区,可能不具有普遍适用性;模型的复杂性和可解释性挑战也可能影响其再现性 。但这些不足并不能掩盖研究的价值,未来的研究可以针对这些问题进一步探索,不断完善对 ASCVD 的认识和防控措施。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》