机器学习助力膀胱癌预后预测:构建高效模型提升精准医疗

【字体: 时间:2025年03月23日 来源:BMC Cancer 3.4

编辑推荐:

  为准确评估膀胱癌患者根治性膀胱切除术后预后,研究人员构建基于机器学习(ML)的模型,该模型性能优于现有模型,意义重大。

  在全球范围内,膀胱癌是常见的恶性肿瘤,在男性中的发病率更高,是癌症相关死亡的重要原因之一。根治性膀胱切除术联合盆腔淋巴结清扫是治疗肌肉浸润性或高危非肌肉浸润性膀胱癌的标准方法,但术后 5 年癌症特异性死亡率(CSM)约为 46%。准确预测患者术后的预后情况至关重要,它能帮助医生为生存预期较差的患者选择合适的辅助治疗方案或临床试验,从而使患者受益。
然而,目前已有的许多评估膀胱癌患者根治性膀胱切除术后预后的模型存在局限性。这些模型大多基于传统统计方法构建,涉及大量变量,获取必要信息困难,且未能充分利用现代技术和数据挖掘技术的优势。为了解决这些问题,来自中山大学附属第一医院的研究人员开展了一项基于监测、流行病学和最终结果(SEER)数据库的研究。他们旨在构建一个基于机器学习(ML)的可解释预后模型,用于预测膀胱癌患者根治性膀胱切除术后 5 年的 CSM,并与现有模型进行性能比较。该研究成果发表在《BMC Cancer》杂志上。

研究人员开展此项研究时,采用了多种关键技术方法。数据来源方面,使用了 SEER 数据库中 2000 - 2020 年确诊为膀胱癌且接受根治性膀胱切除术患者的数据,同时选取中山大学附属第一医院 60 例患者作为外部验证集。在变量处理与选择上,收集了年龄、性别、种族等多种变量,对缺失数据采用多重插补法处理,并通过单变量和多变量 Cox 回归分析筛选出独立预后因素。模型构建则运用了六种机器学习算法(Light Gradient Boosting Machine(LightGBM)、Gradient Boosting Decision Tree(GBDT)、Extreme Gradient Boosting(XGBoost)、Decision Tree(DT)、Adaptive Boosting(AdaBoost)、K - Nearest Neighbor(KNN))和 Cox 比例风险回归模型(CPH),并通过网格搜索和十折交叉验证优化模型超参数。此外,利用一致性指数(C-index)、Brier 评分、混淆矩阵、Kaplan - Meier(K - M)曲线等评估模型性能,采用 Shapley 加性解释(SHAP)方法解释模型。

在研究结果部分,研究人员首先对患者特征进行了分析。共纳入 8380 例患者,其中训练集 6656 例,内部验证集 1664 例,外部验证集 60 例。通过对患者年龄、性别、种族、婚姻状况、病理类型等多方面特征的统计,发现不同分组下患者的 5 年 CSM 率存在差异,且各数据集的中位随访时间也有所不同。

接着,通过单变量和多变量 Cox 回归分析,研究人员成功识别出八个独立预后因素。年龄≥65 岁、黑人种族、非尿路上皮癌、肿瘤大小≥30mm、较高的 T 分期、较高的淋巴结密度(LN 密度,即阳性淋巴结数与总淋巴结数之比)与较差的癌症特异性生存(CSS)相关;而结婚和接受化疗则与较好的 CSS 相关。

在模型开发与选择上,研究人员构建的七个模型在内部和外部验证集中进行比较。结果显示,LightGBM 模型在预测膀胱癌患者根治性膀胱切除术后 5 年 CSM 方面表现最佳。其在内部验证集的 C-index 为 0.723,Brier 评分为 0.191;在外部验证集的 C-index 为 0.791,Brier 评分为 0.134。该模型的准确性和精确性也得到了验证,在内部验证集和外部验证集中都展现出良好的性能。

为了更好地理解模型的内部机制,研究人员进行了 SHAP 分析。通过全局解释和局部解释,发现 LN 密度和 T 分期对模型预测结果影响最为显著。蓝色特征倾向于使预测结果偏向 “生存” 类,红色特征则倾向于使预测结果偏向 “死亡” 类,通过对具体患者的分析直观展示了各特征的作用。

最后,将 LightGBM 模型与现有的三个预后模型(美国癌症联合委员会(AJCC)第 8 版分期模型、膀胱癌风险评估(COBRA)评分模型、多变量模型(MTNSC))进行比较。结果表明,LightGBM 模型在辨别能力和校准能力上均优于其他三个模型,其 C-index 和 AUC 值更高,Brier 评分更低。在决策曲线分析(DCA)中,LightGBM 模型在广泛的阈值概率范围内显示出更大的净效益,临床实用性更强。

综上所述,研究人员成功开发了一种可解释的基于机器学习的模型,用于预测膀胱癌患者根治性膀胱切除术后 5 年的 CSM。与现有模型相比,该模型在辨别能力、校准能力和临床实用性方面表现更优。然而,研究也存在一些局限性,如数据可能存在编码错误、部分重要因素未纳入模型等。未来需要更大规模的前瞻性临床研究来进一步验证模型的性能。该研究为膀胱癌患者的预后预测提供了新的方法和思路,有望推动膀胱癌精准医疗的发展,帮助医生更准确地评估患者预后,制定更合理的治疗方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号