基于机器学习的多发性硬化症风险分层与医疗成本预测新策略

《Communications Medicine》:Multiple sclerosis risk stratification and healthcare cost prediction using machine learning

【字体: 时间:2025年12月17日 来源:Communications Medicine 6.3

编辑推荐:

  本研究针对多发性硬化症(MS)患者医疗成本波动大、高风险患者识别困难的问题,开发了一种基于机器学习(ML)的风险分层框架。通过对超过26.7万人的商业保险索赔数据进行分析,研究人员构建的梯度提升树回归模型在四个月评估期内成功预测了76.0%的最高十分位医疗支出,显著优于基于历史支出的传统方法(43.5%)。该研究为早期识别高风险MS患者、实现精准医疗资源分配提供了新思路。

  
在慢性疾病管理领域,多发性硬化症(Multiple Sclerosis, MS)作为一种中枢神经系统慢性炎性脱髓鞘疾病,不仅给患者带来严重的身体残疾风险,更造成了巨大的医疗经济负担。尽管MS患者仅占研究人群的0.3%,其医疗支出却占总支出的2.5%以上,平均每人每月支出高达4,398美元,是非MS患者的6.5倍。更棘手的是,MS患者的医疗成本具有高度波动性,标准偏差达到4,101美元,远高于普通人群的1,121美元。这种成本的不确定性给医疗资源规划和精准干预带来了严峻挑战。
传统上,医疗机构通常依赖患者过去一个月的医疗支出来预测未来风险,这种方法不仅滞后,而且无法准确识别即将进入高成本状态的患者。随着医疗大数据时代的到来,机器学习(Machine Learning, ML)技术为这一难题提供了新的解决思路。发表在《Communications Medicine》上的这项研究,正是利用商业保险索赔数据,构建了一套能够提前四个月预测MS患者医疗成本风险的智能系统。
研究团队获取了2016年1月至2018年6月期间美国中西部一个州超过26.7万人的去标识化商业保险索赔数据,其中包含631名MS患者。数据涵盖医疗程序术语(CPT)代码、医疗通用程序编码系统(HCPCS)代码、国际疾病分类第十版(ICD-10)诊断代码、国家药品代码(NDC)等多种信息。研究人员采用竞争性网格搜索方法,比较了72种回归模型和63种分类模型的性能,最终选择梯度提升树回归器(Gradient Boosted Trees Regressor)作为最优模型。
在四个月的前瞻性评估中,ML模型的表现令人瞩目。它不仅能够捕捉76.0%的实际最高十分位支出,还显著优于基于前四个月支出(43.5%)和前一个月支出(36.5%)的预测方法。更重要的是,ML模型在识别新进入高成本状态的患者方面表现突出,成功预测了140万美元的相关支出,而传统方法仅识别出18.7万美元。
关键技术方法
研究基于Blue Health Intelligence提供的商业保险索赔数据,包含26.7万人的去标识化记录。采用竞争性网格搜索比较135种ML模型,使用五折交叉验证和保留数据集进行模型选择。特征重要性通过排列重要性计算,统计分析使用GraphPad Prism软件,采用Mann-Whitney U检验和t检验进行显著性分析。
描述性分析揭示MS患者疾病负担
研究发现MS患者虽然数量占比极小(0.3%),但医疗支出占比显著(2.5%),且医疗成本波动性远高于普通人群。男性MS患者月均支出(4,760美元)略高于女性(4,250美元)。MS患者表现出复杂的共病模式,包括焦虑、抑郁等心理障碍,慢性疼痛综合征,以及高血压、高脂血症等心血管疾病。
月度医疗支出动态变化特征
通过将患者按月支出分为四个四分位组,研究发现"上升风险"患者(即从低分位移至高分位的患者)虽然仅占人口的20-28%,却消耗了33-46%的总支出。这部分患者月均支出最高,凸显了早期识别的重要性。
机器学习模型开发与验证
在模型开发过程中,最佳分类模型的曲线下面积(AUC-ROC)达到0.92-0.93,对数损失为0.24;回归模型的R2值为0.49-0.55,平均绝对误差(MAE)为6,062-6,115美元。回归模型在反映实际支出方面更准确,因此被选为最终模型。
特征重要性分析揭示关键风险驱动因素
通过排列特征重要性分析,研究发现疾病修饰治疗(Disease-Modifying Therapy, DMT)相关代码虽然重要,但并非高风险预测的唯一驱动因素。高影响力特征还包括复杂住院就诊、影像学检查、康复治疗以及高血压和抑郁等共病管理代码,这表明模型捕捉的是导致成本激增的更广泛医疗使用模式。
研究结论与展望
这项概念验证研究表明,基于常规收集的索赔数据并通过可解释的ML管道进行分析,可以作为MS患者成本激增的早期预警系统。通过识别可能产生高额费用的人群以及驱动该风险的利用模式,该模型为将实时风险预测与针对性护理管理干预相结合的前瞻性、多中心试验奠定了实用基础。
值得注意的是,该模型不仅依赖于DMT代码来标记高成本患者。在模型识别的上升风险群体中,平均每项索赔的药房成本低于可比的MS患者,而住院和门诊成本模式相似,这表明模型捕捉的是导致成本激增的更广泛医疗使用趋势,而不仅仅是识别使用昂贵药物的患者。
未来研究需要验证输入索赔数据的准确性和完整性,开展前瞻性研究测试该工作流程是否能减少计划外入院、维持功能状态并抵消实施成本。同时应探索与电子健康记录和患者报告数据的整合,延长预测时间范围,并研究其他慢性、高变异性疾病,如炎症性肠病或类风湿关节炎。
这项工作的意义在于,它展示了如何将常规收集的行政索赔数据转化为可操作的风险信号,帮助临床医生和支付方预测可预防的高成本事件,并主动分配资源。如果能在多样化环境中得到验证,这样的系统可以整合到支付方和提供方的工作流程中,支持基于价值的合同,优化资源分配,最终减轻MS的临床和经济负担。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号