机器学习模型助力预测结直肠癌肺转移:精准医疗新突破

【字体: 时间:2025年04月20日 来源:Scientific Reports 3.8

编辑推荐:

  结直肠癌(CRC)患者发生肺转移预后较差,为构建有效预测模型,研究人员利用机器学习(ML)和 Shapley Additive exPlanations(SHAP)开展研究。结果显示随机森林(RF)算法预测能力最佳,还构建了网络计算器,有助于制定个性化治疗方案。

  在医学领域,癌症一直是威胁人类健康的重大难题。结直肠癌(Colorectal cancer,CRC)作为一种常见的恶性肿瘤,其发病率和死亡率都不容小觑。大约 50% 的 CRC 患者术后死亡与远处转移(Distant metastasis,DM)有关,而肺是 CRC 常见的转移部位之一,约 10% - 15% 的 CRC 患者会出现肺转移。对于这些患者来说,早期发现肺转移至关重要,因为与其他转移相比,肺转移的预后相对较好,早期诊断并给予适当治疗,部分患者的 5 年生存率可达 50% 以上。然而,目前现有的肺转移检测方法,如 PET - CT 和活检,存在诸多局限性,PET - CT 成本高昂且有辐射风险,活检则可能导致肿瘤播散和假阴性结果。同时,以往的预测模型缺乏外部验证数据,性能也有待提高。
为了解决这些问题,来自首都医科大学北京电力医院普外科以及中国通用技术集团中国临床医疗研究中心肝胆疾病普外科的研究人员开展了一项极具意义的研究。他们旨在构建并验证一个利用机器学习(Machine learning,ML)评估新诊断 CRC 患者肺转移风险的预测模型,并使用 Shapley Additive exPlanations(SHAP)对模型进行解释。

研究人员用到的主要关键技术方法如下:

  • 数据来源:从美国监测、流行病学和最终结果(SEER)数据库中筛选 2010 - 2015 年的 CRC 患者数据,同时选取首都医科大学北京电力医院患者数据用于外部验证。
  • 构建模型:运用 Python 3.9.12 软件构建 7 种标准 ML 算法模型,包括随机森林(Random Forest,RF)、决策树(Decision Tree,DT)等。
  • 模型评估:采用 AUC 和 AUPR 等指标评估模型预测性能,利用 SHAP 对最优模型变量的重要性进行可视化和解释。

研究结果如下:

  • 患者数据情况:研究共纳入 39,674 例 CRC 患者,其中 1,369 例(3.5%)发生肺转移,并收集 207 例中国医院患者数据进行外部验证。
  • 模型性能对比:7 种 ML 算法中,经过采样技术训练的模型表现优于未经过采样的。RF 算法在内部测试集和外部验证集中均展现出卓越的预测性能,AUC 分别达到 0.980 和 0.927,远超传统逻辑回归(Logistic regression,LR)模型(AUC = 0.854)12
  • 关键预测因素:通过 SHAP 分析,确定肿瘤沉积物、癌胚抗原(CEA)水平和 T 分期是 CRC 患者肺转移的重要预测因素。肿瘤沉积物是最显著的预测因素,CEA 水平和 T 分期次之。同时,研究还发现不同特征对肺转移风险的影响,如 CEA 阳性、肿瘤大小≥5 cm 等是肺转移的风险因素,而 CEA 阴性、I 级肿瘤等是保护因素34
  • 网络计算器构建:研究团队利用 RF 算法构建了在线网络计算器(http://121.43.117.60:8003/),方便临床使用。

研究结论和讨论部分表明,该研究构建的基于 RF 算法的预测模型在预测 CRC 肺转移方面具有良好性能,优于传统 LR 模型,为临床医生提供了更有效的预测工具,有助于制定个性化治疗方案。然而,研究也存在一些局限性,如验证队列是单中心且患者数量有限,模型准确性可通过纳入更多转移风险因素进一步提高,SEER 数据库未提供具体治疗方案等。但总体而言,该研究为 CRC 肺转移的预测和临床管理开辟了新方向,随着数据库的不断扩大和算法的优化,机器学习算法在医学领域将发挥更大的作用,有望为患者带来更好的预后。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号