基于机器学习与SHAP可解释性分析的卒中后肌少症风险预测模型构建及影响因素研究
《Scientific Reports》:Development of machine learning-based models for predicting sarcopenia risk in stroke patients and analysis of associated factors
【字体:
大
中
小
】
时间:2025年12月09日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对卒中后肌少症早期识别困难的问题,开发了基于机器学习的预测模型。研究人员通过前瞻性纳入425例卒中患者,比较了五种机器学习算法,发现随机森林(RF)模型预测性能最优(AUC=0.967)。SHAP分析揭示BMI、血清白蛋白、年龄等12个关键预测因子,为卒中后肌少症的早期识别和个性化干预提供了新方法。
在全球范围内,卒中仍然是导致长期残疾的主要原因之一,约50%的幸存者存在持续功能 impairment(功能障碍),15%-30%发展为严重残疾。随着对卒中后骨骼肌健康影响的关注度不断提高,研究者发现神经功能缺损和活动能力下降会加速肌肉萎缩、损害肌力并降低身体性能。肌少症(Sarcopenia)作为一种进行性、全身性的骨骼肌质量、力量和功能丧失的综合征,在老年人群中具有高患病率。卒中相关肌少症(Stroke-Associated Sarcopenia, SAS)是继发性肌少症的一种亚型,其特征是由卒中相关神经损伤、炎症和长期身体不活动引起的肌肉退化。SAS不仅增加跌倒、骨折和不良临床结局的风险,还会延迟康复进展,给医疗系统带来沉重负担。
目前临床上对SAS的识别主要依赖肌力测试和身体性能评估,但这些方法可能无法捕捉早期或细微的肌肉 deterioration(恶化),限制了其用于及时风险分层和早期干预的效用。近年来,虽有研究尝试使用传统或基础机器学习方法开发卒中相关肌少症的预测模型,但多数研究存在依赖单一建模策略、缺乏外部验证、可解释性有限等不足,限制了模型的临床适用性。
为解决这些局限,本研究系统比较了五种主流机器学习算法,构建卒中相关肌少症风险预测模型,纳入外部队列验证,并应用SHAP(SHapley Additive exPlanations)可解释性分析以增强模型透明度,为卒中后肌少症的早期风险识别提供临床有意义的见解。
研究方法方面,本研究采用便利抽样法,于2024年10月至2025年4月期间从中国昆明两家三级医院招募卒中患者。最终纳入425例患者,其中昆明市第一人民医院308例作为训练队列,昆明延安医院117例作为验证队列。肌少症诊断依据亚洲肌少症工作组(Asian Working Group for Sarcopenia, AWGS)标准,包括低肌肉质量(男性ASMI≤7.0 kg/m2,女性<5.4 kg/m2)、低肌力(男性握力<28 kg,女性<18 kg)和差身体性能(6米步速<1.0 m/s)。使用随机森林算法进行特征选择,保留重要性高于平均阈值(0.031)的12个特征。开发逻辑回归(LR)、决策树(DT)、随机森林(RF)、朴素贝叶斯(NB)和梯度提升(GB)五种机器学习模型,采用准确率、召回率、精确率、特异性、F1分数和曲线下面积(AUC)进行评估,并对最优模型进行SHAP分析。
在425例卒中患者中,145例(34.1%)被诊断为肌少症。与非肌少症组相比,肌少症组在年龄、性别、卒中类型、病史、美国国立卫生研究院卒中量表(National Institutes of Health Stroke Scale, NIHSS)评分、体重指数(Body Mass Index, BMI)、血清白蛋白(Albumin)、尿酸(Uric Acid)、肌酐(Creatinine)、血红蛋白(Hemoglobin)、C反应蛋白(C-Reactive Protein, CRP)等多个临床变量上存在显著差异(P<0.05)。
随机森林模型在训练集和验证集中均表现出最优性能,训练集AUC为0.967,验证集AUC为0.861,其他指标如F1分数(0.805)、准确率(0.860)和召回率(0.843)也均优于其他模型。梯度提升模型表现次之,而朴素贝叶斯模型在不同队列中性能不稳定,可能与类别分布差异有关。
SHAP分析显示,BMI、血清白蛋白、年龄、尿酸、肌酐、血红蛋白、钙离子、NIHSS评分、总蛋白、甘油三酯、CRP和尿素是影响模型预测最重要的12个变量。低BMI和低血清白蛋白与高肌少症风险显著相关,反映了营养状况的重要性。年龄增长是肌少症的强正向预测因子。尿酸、肌酐等代谢指标和CRP等炎症标志物也显示出重要预测价值。
SHAP力力图展示了两个典型病例的预测过程。一例高风险患者基线概率0.347,因低BMI(17.8)、低血红蛋白等因素贡献,最终概率升至0.82;另一例低风险患者因BMI、年龄等因素的负向贡献,最终概率降至0.02。这种个体化解释增强了模型临床应用的透明度。
本研究开发的机器学习模型,特别是随机森林模型,在预测卒中患者肌少症风险方面表现出优越性能。通过SHAP可解释性分析,明确了营养、代谢、炎症和生理状况等多维度因素对肌少症风险的影响。这不仅为早期识别高危患者提供了有效工具,也为制定个性化预防和康复策略提供了理论依据。
该研究的创新之处在于整合了多种机器学习算法、外部验证和可解释性分析,解决了现有研究的局限性。然而,研究也存在样本量有限、未包含体成分指标、激素水平和身体活动数据等不足。未来研究应扩大样本量,丰富特征集,并在多中心进行外部验证,以进一步提高模型的稳健性和临床实用性。
总之,这项研究为卒中后肌少症的早期识别和精准管理提供了新思路,将机器学习与临床可解释性相结合,有望推动老年精准医疗在这一领域的发展。研究成果发表于《Scientific Reports》,为相关领域的研究者和临床医生提供了有价值的参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号