《npj Aging》:Predicting all-cause mortality with machine learning among Brazilians aged 50 and over: results from The Brazilian Longitudinal Study of Ageing (ELSI-Brazil)
编辑推荐:
为解决人口老龄化带来的慢性疾病流行及死亡率预测难题,研究人员开展了利用机器学习预测巴西 50 岁及以上人群全因死亡率的研究。结果显示随机森林模型表现最佳,该研究对制定健康政策和开展预防干预意义重大。
在全球人口老龄化的浪潮下,慢性非传染性疾病的患病率不断攀升,给社会和医疗系统带来了沉重负担。据世界卫生组织(WHO)相关报告,慢性疾病的发病率持续上升,与之相伴的医疗成本也在不断增加 。在这种背景下,预测死亡率,尤其是全因死亡率,成为了公共卫生领域的关键挑战。因为影响全因死亡率的因素众多,它们相互作用且在不同国家存在差异,传统方法难以准确预测。而机器学习(ML)作为人工智能领域的重要分支,能让计算机从数据中学习,无需手动编程即可执行特定任务,在健康领域展现出巨大潜力,已成功应用于多种健康问题的预测。但此前,针对巴西全体老年人口的全因死亡率预测,尚未有研究评估机器学习的表现。
为填补这一空白,巴西联邦佩洛塔斯大学(Universidade Federal de Pelotas)的 Felipe Mendes Delpino 等研究人员,借助巴西纵向衰老研究(ELSI - Brazil)的数据展开了相关研究。该研究成果发表在《npj Aging》上。
研究人员使用了 ELSI - Brazil 的纵向数据,这些数据来自于 2015 - 2016 年的基线调查和 2019 - 2021 年的首次随访,涵盖了巴西五个地区 70 个城市的具有代表性的样本,参与者均为 50 岁及以上的非机构化巴西居民。研究共纳入 9412 名参与者,在约五年的随访期间,记录到 970 例死亡病例。
研究人员测试了九种机器学习算法,包括逻辑回归(Logistic Regression)、决策树(Decision Tree)、随机森林(Random Forest)、梯度提升(Gradient Boosting)等。他们选取了 59 个预测变量,这些变量涵盖了人口统计学特征、健康状况和生活方式习惯等方面。为评估模型性能,使用了多种指标,如受试者工作特征曲线下面积(AUC)、精度(Precision)、召回率(Recall)等。
在样本特征方面,死亡组(阳性组)的参与者年龄更大,男性比例更高,已婚或稳定伴侣的比例更低,受教育程度较低 。
模型结果显示,随机森林模型的预测性能最佳,AUC 达到 0.92(95% CI:0.90 - 0.94),AUC - PR 为 0.75。通过 SHAP 分析发现,年龄是影响全因死亡率概率最重要的因素,此外,BMI、药物使用、身体活动、生活满意度和教育程度也对模型有重要影响 。
研究表明,虽然模型在预测全因死亡率方面取得了不错的 AUC 值,但在预测阳性类(死亡)时存在困难,这主要是由于类不平衡问题导致的。随机森林模型在处理复杂、异质数据方面表现出色,能够有效识别高死亡风险个体,为优化资源分配和指导预防干预提供了有力支持 。
该研究具有重要意义。在公共卫生和流行病学领域,全因死亡率预测对制定健康政策和预防策略至关重要。以往研究多聚焦于特定病因的死亡率预测,而本研究首次针对巴西 50 岁及以上成年人的全因死亡率进行预测,为更广泛的预防干预提供了可能。同时,研究结果有助于早期识别高死亡风险个体,从而开展有针对性的个性化干预,提高老年人的管理水平和生活质量 。
在研究方法上,研究人员主要采用了以下关键技术:首先,利用 ELSI - Brazil 的纵向数据,该数据具有广泛代表性;其次,测试九种机器学习算法,筛选出最佳预测模型;再者,运用 SHAP 技术分析各预测变量的重要性;最后,通过多种性能指标评估模型效果。
研究结果部分:
样本特征 :对 9412 名参与者的数据进行分析,发现死亡组与非死亡组在年龄、性别、婚姻状况、教育程度等方面存在显著差异。
模型结果 :随机森林模型在预测全因死亡率方面表现最佳,其 AUC、AUC - PR 等指标突出,且在交叉验证中也获得了较高的 F1 分数。
变量重要性 :通过 SHAP 分析确定了年龄、BMI 等是影响模型结果的重要变量,而高血压、中风等变量相对重要性较低。
研究结论和讨论部分,虽然机器学习模型在预测巴西 50 岁及以上人群全因死亡率方面取得了一定成果,但仍面临类不平衡、样本代表性局限等挑战。未来研究需要探索遗传、环境和社会经济变量的交叉作用,延长随访时间,开展模型的外部验证,评估基于预测模型的干预措施效果,并关注伦理和隐私问题。总体而言,该研究为机器学习在公共卫生领域的应用提供了重要参考,为改善老年人群健康管理和制定科学的公共卫生政策奠定了基础。
閹垫捁绁�
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�