编辑推荐:
为解决早期胃癌(EGC)淋巴结转移(LNM)预测模型不可靠及数据不平衡问题,研究人员开展构建 EGC 的 LNM 预测模型研究。结果显示集成学习模型在测试集和外部验证集表现良好,该模型为临床治疗策略选择和预后评估提供依据。
在健康与疾病的宏大版图中,胃癌始终是一块沉重的阴影。据统计,胃癌在全球新发病例中排第五,癌症相关死亡中位居第四,中国更是胃癌的 “重灾区”,新确诊病例和死亡病例占比颇高。早期胃癌(EGC),指病变局限于黏膜和黏膜下层的胃癌,无论有无淋巴结转移(LNM) 。虽说它的淋巴结转移率在 12.3% - 20.7% 之间,但这一转移情况对患者预后影响巨大。没有淋巴结转移的患者 5 年生存率超 90%,一旦发生转移,生存率骤降至 70 - 80%,复发率也升至 8%。当前,EGC 主要治疗方式是内镜切除术(ER)和胃手术,精准判断 LNM 状态对选择合适治疗手段、预估患者预后至关重要。然而,过往构建的 LNM 预测模型多基于单一算法,且受数据集样本不平衡困扰,预测性能不佳。
为突破这一困境,苏州大学附属第一医院、附属第四医院以及徐州医科大学附属医院的研究人员展开了深入探索。他们的研究成果发表在《Scientific Reports》上,为早期胃癌淋巴结转移预测带来了新的曙光。
研究人员采用了多种关键技术方法。首先,从三家医院 2014 - 2023 年的胃癌手术病例中筛选出 1423 例术后病理确诊为 EGC 的病例,其中 1189 例按 7:3 比例分为训练集和测试集,234 例作为外部验证集。接着,运用单因素分析和多因素逻辑回归分析确定 LNM 的独立风险因素,同时利用随机森林(RF)、支持向量机(SVM)、分类回归树(CART)、逻辑回归(LR)和极端梯度提升(XGB)五种算法计算特征权重,筛选出最优特征组合构建模型,最后通过软投票法将五个模型整合为集成学习模型。
下面来看看具体的研究结果:
- 人口统计学和临床病理特征:研究共纳入 1423 例 EGC 患者,LNM 发生率为 16.4%。男性 EGC 患病率高于女性,但女性 LNM 率略高。LNM(-)组和 LNM(+)组在年龄、肿瘤大小、位置、浸润深度等多方面存在显著差异,性别、印戒细胞和组织病理类型无明显差异。
- LNM 的风险因素:单因素分析显示年龄、肿瘤大小等多个因素与 LNM 显著相关;多因素分析确定肿瘤大小、浸润深度、肿瘤组织学类型和血管侵犯是 EGC 发生 LNM 的独立风险因素,大于 2cm 的黏膜下肿瘤、未分化且伴有血管侵犯的肿瘤更易发生 LNM。
- 不同算法模型的特征重要性及最优特征组合:综合五种算法权重突出的特征和 LNM 独立风险因素,筛选出 10 个特征。通过大量计算确定各算法的最优特征组合,部分算法的最优组合包含肿瘤大小、组织学类型等相似特征。
- 构建集成学习模型:基于筛选的最优特征组合构建五个模型并整合为集成学习模型。该模型在测试集上 AUC 值达 0.860,当阈值设为 0.18 时,各项性能指标良好。
- 外部验证集:在外部验证集上,模型 AUC 值为 0.892,阈值为 0.18 时,各项指标显示模型对评估 LNM 风险有重要价值。
在讨论部分,研究人员指出本次构建的模型可靠性高,其 LNM 率与以往报道相符,独立风险因素也与过往研究一致。与其他研究相比,该集成学习模型在测试集和外部验证集表现更优。同时,研究也存在局限性,如回顾性研究可能存在选择偏倚、数据集有限、未纳入非手术组和部分临床因素等。
总体而言,这项研究成功构建了用于预测早期胃癌淋巴结转移的集成学习模型,在测试集和外部验证集都展现出较高准确性。基于研究结果,当患者淋巴结转移风险超 18% 时,建议进行手术干预。这一模型为临床医生制定治疗方案提供了重要参考依据,有望推动早期胃癌诊疗向更加精准、高效的方向发展,为众多患者带来新的希望,尽管研究存在不足,但也为后续研究指明了方向,激励科研人员不断探索,进一步完善早期胃癌淋巴结转移的预测和诊疗体系。