编辑推荐:
研究人员构建机器学习模型探究人口、饮食与动脉粥样硬化性心血管疾病(ASCVD)关系,XGBoost 模型表现最佳,意义重大。
动脉粥样硬化性心血管疾病(Atherosclerotic Cardiovascular Disease,ASCVD)是一类严重危害人类健康的疾病,它由动脉粥样硬化引发,就像血管里悄悄筑起了 “小城墙”,使得动脉逐渐狭窄,阻碍血液流动,进而可能诱发心肌梗死、脑血管意外等严重后果。目前,尽管已知高血压、高血糖、高血脂和肥胖等是 ASCVD 的风险因素,但对于人口特征和饮食模式与 ASCVD 之间的关联,研究还不够深入。而且,传统统计方法在研究这些关联时存在诸多限制,如对数据要求苛刻,大量非结构化数据无法利用。在这个大数据时代,如何更精准地挖掘数据背后的秘密,找到预防和控制 ASCVD 的有效方法,成为了医学领域亟待解决的问题。
为了攻克这些难题,来自芜湖市第二人民医院心内科和中国医学科学院 & 北京协和医学院医学信息研究所的研究人员展开了一项重要研究。他们的研究成果发表在《BMC Medical Informatics and Decision Making》上,为我们认识 ASCVD 带来了新的视角。
研究人员使用了美国国家健康和营养检查调查(U.S. National Health and Nutrition Examination Survey,NHANES)1999 - 2018 年的数据集,这个数据集就像一个装满医学宝藏的 “百宝箱”,包含了丰富的人口健康信息。研究人员从中筛选出 40,298 名参与者,并基于 20 个人口特征,运用 5 种机器学习(Machine Learning,ML)算法 —— 逻辑回归(Logistic Regression,LR)、人工神经网络(Artificial Neural Networks,ANNs)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和极端梯度提升(eXtreme Gradient Boosting,XGBoost),构建模型来预测 ASCVD。
在研究过程中,研究人员采用了多种关键技术方法。首先是数据预处理,他们排除了 18 岁以下、ASCVD 数据缺失以及含有其他缺失数据的样本,针对数据不平衡的问题,使用合成少数过采样技术和编辑最近邻(Synthetic Minority Over-sampling Technique and Edited Nearest Neighbor,SMOTEENN)重采样技术进行处理,并利用最小 - 最大归一化方法将数据特征值归一化到 [0, 1] 范围。然后,通过 10 折交叉验证来评估模型性能,使用受试者工作特征曲线下面积(Area Under the Curve,AUC)、准确率、精确率、召回率和 F1 评分等指标进行衡量。最后,运用 SHapley Additive exPlanations(SHAP)分析来解释模型输出,探究各特征对结果的贡献。
研究结果令人瞩目。在模型性能方面,5 种模型都展现出了不错的效率和稳定性,其中 XGBoost 模型脱颖而出,AUC 达到 0.8143,F1 评分高达 0.8631,表现最佳。通过 SHAP 分析,研究人员发现了诸多与 ASCVD 风险相关的因素。年龄、贫困收入比(Poverty Income Ratio,PIR)、吸烟状况、家庭规模、性别和种族等因素对 ASCVD 风险影响显著。具体来说,年龄增长、男性、吸烟会增加 ASCVD 风险,而较高的 PIR 在 60 岁以下人群中具有保护作用,在 60 岁及以上人群中则呈现负面影响。
在饮食方面,研究也有重要发现。咖啡饮用、适量摄入膳食盐和蔬菜对预防 ASCVD 有益;减少精制谷物摄入与降低 ASCVD 风险之间不存在线性关系;总乳制品摄入量越高,ASCVD 风险越低;两天总热量摄入为 5,000 千卡似乎是降低 ASCVD 风险的理想值,热量摄入与 ASCVD 风险呈现非线性关系。
研究结论表明,XGBoost 模型在确定 NHANES 1999 - 2018 数据集中参与者的人口特征、饮食摄入与 ASCVD 之间的关系方面,具有显著的有效性和精确性。这一研究成果意义非凡,它为深入了解 ASCVD 的发病机制提供了新的依据,有助于制定更有针对性的预防和干预策略。比如,对于不同年龄、性别、经济状况的人群,可以根据这些研究结果给出个性化的饮食建议,从而降低 ASCVD 的发病风险。
不过,这项研究也存在一些局限性。由于计算限制,未对种族、年龄等特征进行亚组分析;ASCVD 诊断部分依赖问卷调查的自我报告数据,可能存在信息偏差;约 10% 的病例存在变量缺失,影响分析准确性;SHAP 分析结果基于单一训练 / 测试分区,可能不具有普遍适用性;模型的复杂性和可解释性挑战也可能影响其再现性 。但这些不足并不能掩盖研究的价值,未来的研究可以针对这些问题进一步探索,不断完善对 ASCVD 的认识和防控措施。
婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婇柍瑙勫劤娴滈箖鏌i悢鐓庝喊婵℃彃婀遍埀顒冾潐閹稿摜鈧稈鏅濋埀顒勬涧閵堟悂寮崒鐐村€锋い鎺嶇劍閻﹀酣姊虹拠鎻掝劉缂佸甯″畷婵嬪箳濡も偓缁€澶愭煟閺冨倸甯舵潻婵囩節閻㈤潧孝婵炶尙濞€瀹曟垿骞橀幇浣瑰兊閻庤娲栧ú銊╂偩閾忓湱纾介柛灞剧懅椤︼附淇婇锝囩煉鐎规洘娲熼、鏃堝川椤栵絾绁梻浣瑰缁诲倿鎮ч幘婢勭喓鈧綆鍠楅悡娆愮箾閼奸鍤欐鐐达耿閺屾洟宕堕妸銉ユ懙閻庢鍣崜鐔肩嵁瀹ュ鏁婇柣锝呮湰濞堟悂姊绘担钘変汗闁烩剝妫冨畷褰掓惞椤愶絾鐝烽梺绉嗗嫷娈曟い銉ョ墦閺屾盯骞橀懠顒夋М婵炲濯崹鍫曞蓟閺囥垹骞㈡俊銈咃工閸撻亶鏌i姀鈺佺仭濠㈢懓妫楀嵄闁圭増婢橀~鍛存煟濞嗗苯浜惧┑鐐茬湴閸婃洟婀侀梺鎸庣箓濡瑧绮堢€n喗鐓冪憸婊堝礈濮橆厾鈹嶉柧蹇氼潐瀹曟煡鏌涢幇銊︽珖妞も晝鍏橀弻銊モ攽閸℃瑥鈪靛┑鈽嗗灠椤戝寮诲☉銏犵闁瑰鍎愬Λ锟犳⒑鐠囧弶鍞夊┑顔哄€楃划姘舵焼瀹ュ懐顦ㄥ銈嗘尵婵兘顢欓幒妤佲拺閻犲洠鈧櫕鐏侀梺鍛婃煥妤犳悂鍩㈤幘璇茬闁挎棁妫勫▓銉ヮ渻閵堝棛澧紒顔肩焸閸╂盯寮介鐔哄幈濠电偛妫欓崝鏇㈡倶閳哄偆娈介柣鎰级閸犳﹢鏌熼姘毙х€殿噮鍣e畷鎺懳旀担瑙勭彃
10x Genomics闂傚倷绀侀幖顐﹀磹閻熼偊鐔嗘慨妞诲亾妤犵偞鐗犻垾鏂裤€掓刊鐖剈m HD 闂佽瀛╅鏍窗閹烘纾婚柟鍓х帛閻撴洘鎱ㄥΟ鐓庡付闁诲繒濮烽埀顒冾潐濞叉粓宕伴幘鑸殿潟闁圭儤顨呴獮銏℃叏濮楀棗澧┑顔煎暣濮婃椽宕ㄦ繝鍌滅懆濠碘槅鍋呯划宥夊Φ閺冨牆绠瑰ù锝囨嚀娴犮垽姊洪幖鐐插姉闁哄懏绮撻幃楣冩焼瀹ュ棛鍘遍棅顐㈡搐椤戝懏鎱ㄩ埀顒€鈹戦悙瀛樼稇婵☆偅绮撴俊鐢稿箛閺夊灝宓嗛梺缁樶缚閺佹悂鎮℃担铏圭=濞达絽鎲″﹢鐗堜繆閻愯埖顥夐摶鐐烘煕瑜庨〃鍛矆閸℃稒鐓曢柍鈺佸暈缂傛岸鏌嶈閸忔稓鍒掑▎鎾虫瀬鐎广儱顦伴弲鎼佹煥閻曞倹瀚�
濠电姷鏁搁崑娑樜涙惔銊ュ瀭闁兼祴鏅滃畷鏌ユ倵閿濆骸浜為柍缁樻閹鏁愭惔鈥崇缂備椒鑳跺▍澧俰st闂傚倷绶氬ḿ褍螞濡ゅ懏鏅濋柨婵嗘川缁犳柨顭块懜闈涘婵☆偅蓱閵囧嫰骞樼捄杞扮捕缂傚倸绉崇欢姘跺蓟濞戙垹鍐€闁靛ě鍐f嫛婵犵數鍋涢悧濠囧储椤ョSPR缂傚倸鍊烽悞锔剧矙閹烘鍎庢い鏍仜閻掑灚銇勯幒鍡椾壕濡炪倧缂氶崡鎶藉箖瑜斿畷顐﹀Ψ閵堝棗濯伴梻渚€鈧偛鑻晶鏉戔攽閳ユ剚鍤熼柍褜鍓ㄧ紞鍡涘礈濮樿泛姹查柍鍝勬噺閸婂灚绻涢幋鐐垫噧濠殿喖鍟撮弻娑㈠籍閹炬潙顏�
闂傚倷绀侀幉锟犮€冮崱妞曞搫饪伴崨顓炵亰闂婎偄娲︾粙鎺楀吹閸曨垱鐓熼柟閭﹀墻閸ょ喖鏌曢崼鐔稿唉妤犵偞鐗犲鍫曞箣閻樻鍞堕梻浣告啞閻熴儱螞濠靛棭娼栧┑鐘宠壘鎯熼梺闈涱檧缁茬厧霉閻戣姤鐓熼柣妯夸含閸斿秶鎲搁弶鍨殻闁诡喓鍎甸弫鎾绘晸閿燂拷 - 濠电姷鏁搁崕鎴犲緤閽樺鏆︽い鎺戝閻鏌涢埄鍐$細妞も晜鐓¢弻娑㈠焺閸愭儳姣€闂佸湱鍎ら幐楣冦€呴悜钘夌閺夊牆澧界粔鐢告煕鎼淬垹鐏ラ柍钘夘樀楠炴﹢顢涘顐㈩棜婵犵數鍋為崹鍫曞箹閳哄倻顩叉繝濠傚暟閺嗭箓鏌i弮鍥仩缁炬儳銈搁弻娑㈠焺閸愵厼顥濋梺鍛婃⒐鐢繝骞冨Δ鍛嵍妞ゆ挾鍋樺Σ鎰版⒑缂佹ḿ鈯曢柣鐔濆洤绠悗锝庡枛缁犳煡鏌熸导瀛樻锭闁诡喕绶氬娲川婵犲倻顑傛繝鈷€鍕垫疁鐎殿喗濞婇幃銏ゆ偂鎼达綆鍞规俊鐐€栭弻銊╂倶濠靛牏鐜绘繛鎴欏灪閻撴瑩鎮归妸銉Ц闁稿﹤顭烽幃鐑藉閵堝棛鍘卞┑鐐叉閿氶柣蹇嬪劜閵囧嫰顢曢姀鈺佸壎閻庤娲滄繛鈧€殿喕绮欓、鏍敃閿濆懏璇為悗娈垮枟閹倿寮幘缁樻櫢闁跨噦鎷�
婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婃い鎺嗗亾鏉╂繃绻濋悽闈浶㈤悗姘煎櫍閹本鎯旈妸锔惧幘閻庤娲栧ú銈嗙濠婂牊鐓曢柣鎰摠鐏忥箓鏌熼挊澶娾偓濠氬焵椤掑﹦绉甸柛鎾村哺椤㈡棃濡舵径瀣化闂佽澹嬮弲娑欎繆閾忓湱纾奸柕濞у喚鏆梺鐟板槻閹冲酣銈导鏉戠闁靛ě鈧崑鎾寸節濮橆厾鍘搁柣搴秵閸嬪嫭鎱ㄩ崼銉︾厸鐎光偓閳ь剟宕版惔銊ョ厺闁哄啫鐗嗛崡鎶芥煟濡寧鐝慨锝呭閺岋絾鎯旈姀鈶╁闂佸憡姊圭敮鈥崇暦濠靛鍋勯柣鎾冲閵夆晜鐓ラ柣鏇炲€圭€氾拷