《BMC Medical Informatics and Decision Making》:Survival analysis using machine learning in transplantation: a practical introduction
编辑推荐:
为提升肾移植预测准确性,研究人员用随机生存森林(RSF)模型分析数据,证明其潜力,为临床提供参考。
在医学领域,肾移植是终末期肾病患者重获新生的希望之光。然而,如何精准预测肾移植患者的生存情况,一直是困扰医学界的难题。准确的生存预测对于优化患者管理、合理分配医疗资源以及改善患者预后至关重要。以往,大多数临床预测模型依赖 Cox 比例风险回归模型,虽广泛应用,但存在诸多局限,如对协变量的严格假设、处理大数据集的困难、面对高度相关协变量时的不稳定性,以及在处理缺失数据和变量间非线性关系上的不足。
随着人工智能和机器学习技术的飞速发展,新的方法为解决这些问题带来了希望。随机生存森林(RSF)模型作为一种新兴的方法,在生存分析中展现出独特优势,它能够处理高度相关的变量,且不依赖严格的数据假设。为了深入探究 RSF 模型在肾移植领域的应用潜力,来自哥伦比亚移植研究中心(Colombiana de Trasplantes)等机构的研究人员展开了一项重要研究,相关成果发表在《BMC Medical Informatics and Decision Making》杂志上。
研究人员利用模拟的肾移植受者数据集,通过一系列复杂而严谨的技术方法展开研究。在数据处理方面,运用数据分割技术,将数据分为训练集、验证集和测试集,采用 70%-30% 的分割比例,并结合 5 折交叉验证,确保模型的可靠性和泛化能力。在模型构建上,使用 RSF 模型进行生存分析,通过自定义函数和超参数调优,找到最佳模型配置。同时,为了对比分析,还拟合了 Cox 比例风险模型。
研究结果显示,RSF 模型在多个性能指标上表现出色。其一致性指数(C-index)达到 0.774,表明模型能够较好地区分发生事件(移植物丢失)和未发生事件的患者;综合 Brier 评分(IBS)为 0.090,相比参考模型更低,意味着预测准确性更高。在时间依赖性受试者工作特征曲线(ROC)分析中,曲线下面积(AUC)为 0.709,显示出中等的预测性能。此外,通过混淆矩阵分析,RSF 模型的灵敏度为 0.982,能有效识别移植物丢失病例,但特异性较低,为 0.147。
变量重要性分析发现,供体年龄、受者体重指数(BMI)和受者年龄是预测移植物丢失的三个最重要因素。与 Cox 比例风险模型相比,RSF 模型在准确性、灵敏度和精度上表现更优,不过特异性较低。
综合研究结论和讨论部分,RSF 模型在肾移植数据分析和移植物丢失预测方面展现出良好的适用性和可重复性。尽管该模型存在计算要求高、解释不够直观等局限性,但在处理删失数据和高维变量方面具有显著优势。此次研究不仅为肾移植领域的临床决策提供了重要参考,也为未来进一步探索混合模型以及将机器学习技术更广泛地应用于临床实践奠定了基础。其详细的研究过程和可重复的代码,为其他研究人员和临床医生提供了宝贵的学习资源,推动了医学领域在肾移植生存分析方面的发展,有望为患者带来更好的治疗效果和生活质量提升。
研究人员为开展研究用到的主要关键技术方法包括:利用模拟的肾移植受者数据集进行分析;运用数据分割(70%-30% 分割比例)和 5 折交叉验证技术处理数据;构建并训练 RSF 模型,通过自定义函数进行超参数调优;拟合 Cox 比例风险模型用于对比分析。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》