多尺度影像组学与深度学习融合预测肾透明细胞癌Ki-67表达:一项多中心研究
《npj Precision Oncology》:Integration of multi-scale radiomics and deep learning for Ki-67 prediction in clear cell renal carcinoma
【字体:
大
中
小
】
时间:2025年12月07日
来源:npj Precision Oncology 8
编辑推荐:
本研究针对肾透明细胞癌(ccRCC)Ki-67表达术前无创预测的临床难题,开发了融合多尺度影像组学(瘤内、瘤周、栖息地)和深度学习特征的多模态机器学习模型。该模型在外部测试集AUC达0.756,显著优于单模态模型,SHAP分析显示栖息地影像组学是主要预测因子。研究为ccRCC术前风险分层提供了可靠工具,对指导个体化治疗具有重要意义。
肾癌是泌尿系统最常见的恶性肿瘤之一,其中肾透明细胞癌(clear cell renal cell carcinoma, ccRCC)约占所有肾癌病例的70%-80%。近年来,全球范围内ccRCC的发病率和死亡率均呈上升趋势,使其成为重要的公共卫生问题。虽然手术切除对早期局限性ccRCC效果显著,但仍有约20%-30%的患者术后出现局部复发或远处转移,导致五年生存率显著降低。
Ki-67是一种核抗原,是细胞增殖活性的标志物,在除G0期外的所有细胞周期阶段均有表达,与肿瘤的增殖和侵袭性密切相关。大量研究证实Ki-67是ccRCC的关键预后生物标志物,其高表达与侵袭性肿瘤行为、不良结局和高风险临床病理特征显著相关,使其成为潜在的治疗靶点。目前,评估Ki-67表达的金标准仍是术后免疫组织化学分析。然而,这种方法具有侵入性,并存在固有的局限性,包括潜在的采样偏差和诊断延迟。因此,开发一种术前、无创且可靠的模型来预测Ki-67表达,对于准确评估肿瘤生物学特性、对高危患者进行分层以及指导个性化治疗策略具有至关重要的临床意义。
尽管已有临床模型和分子生物标志物被提出用于术前预测Ki-67,但其普适性和准确性仍然有限。医学影像作为底层遗传和分子过程的宏观替代指标,可以无创地揭示肿瘤内丰富的生物学信息。人工智能与医学影像的融合通过影像组学(Radiomics)和深度学习(Deep Learning, DL)为无创预测肿瘤分子表型开辟了新途径。影像组学能够从医学图像中高通量提取定量特征,通过量化肿瘤的形状、纹理和强度分布来解码潜在的生物学行为。然而,传统的影像组学通常将肿瘤视为同质实体,从而忽略了其复杂的瘤内异质性。新兴的"栖息地成像"(habitat imaging)技术通过将肿瘤划分为具有相似影像学特征的子区域,有助于更深入地探索肿瘤微环境和空间异质性。此外,瘤周(peritumoral)区域包含了关于肿瘤侵袭性和免疫微环境的关键信息,为传统的瘤内分析提供了重要补充。同时,深度学习技术,特别是卷积神经网络,通过从原始像素中自动学习层次化表示(从低级纹理到高级语义特征),展现出巨大潜力,从而挖掘出与肿瘤生物学相关的、人眼无法察觉的潜在模式。
虽然已有一些影像组学研究探讨了ccRCC中Ki-67的术前预测,但它们通常局限于单一的影像模态或区域(如仅瘤内区域),从而限制了模型的预测性能和临床普适性。因此,本研究旨在开发一种基于计算机断层扫描(Computed Tomography, CT)图像的多模态机器学习(Machine Learning, ML)模型,整合影像组学、深度学习和临床特征,以准确预测ccRCC患者的术前Ki-67表达,从而促进风险分层和个性化治疗计划制定。该研究论文发表在《npj Precision Oncology》期刊上。
为开展研究,研究人员从中国三家医疗中心回顾性纳入了627例经病理确诊的ccRCC患者。患者根据5%的Ki-67指数阈值分为低表达组(n=312)和高表达组(n=315)。从术前CT图像中提取了多尺度特征,包括瘤内(intratumoral)影像组学特征、瘤周(peritumoral, 1mm/3mm/5mm)特征、栖息地(habitat)影像组学特征(通过K-means聚类将肿瘤分为3个子区域),以及使用预训练的2D-ResNet50和3D-ResNet50模型提取的深度学习特征。同时,基于多变量逻辑回归分析确定的独立临床预测因子(血小板计数PLT、肿瘤直径Diameter、血尿Hematuria)构建了临床模型。研究采用严格的特征选择流程(包括稳定性分析ICC/CCC、相关性分析、mRMR、LASSO回归)筛选关键特征,并比较了五种集成学习算法(随机森林RF、AdaBoost、XGBoost、LightGBM、极端随机树EXT)构建单模态模型。最终,采用堆叠(Stacking)集成策略融合表现最佳的单模态模型(栖息地模型、1mm瘤周模型、2D深度学习模型、临床模型)的预测概率,以极端随机树(EXT)作为元学习器(meta-learner)构建多模态融合模型。模型性能通过受试者工作特征曲线下面积(Area Under the Curve, AUC)、校准曲线、决策曲线分析(Decision Curve Analysis, DCA)和SHAP(Shapley Additive Explanations)可解释性分析进行评估。
研究共纳入627例ccRCC患者,随机分为训练集(n=290)、内部验证集(n=125)和外部测试集(n=212)。基线特征在各数据集中均衡。多变量逻辑回归分析确定血小板计数(PLT)(OR=0.997, p<0.001)、肿瘤直径(OR=1.200, p<0.001)和血尿(OR=2.633, p=0.009)是Ki-67表达的独立预测因子。
影像组学特征经过严格的稳定性分析(ICC>0.75, CCC>0.85)和多重特征选择后保留。栖息地成像分析确定将肿瘤划分为3个栖息地时聚类效果最佳。在验证集上,各单模态模型性能如下:栖息地模型(Habitat, 使用RF算法) AUC = 0.835;1mm瘤周模型(PERI1mm, 使用EXT算法) AUC = 0.836;2D深度学习模型(DL_2D, 使用EXT算法) AUC = 0.809;3D深度学习模型(DL_3D, 使用LGBM算法) AUC = 0.713;瘤内模型(INTRA, 使用Ada算法) AUC = 0.787;临床模型(Clinical, 使用XGB算法) AUC = 0.792。结果表明,栖息地模型显著优于标准瘤内模型,凸显了捕捉瘤内异质性的优势。1mm瘤周区域最具预测价值。2D深度学习模型性能优于3D模型。
基于表现最佳的单模态模型(栖息地、PERI1mm、DL_2D、临床模型),研究比较了多种融合策略。在验证集上,使用EXT作为元学习器的堆叠集成模型(EXT-stacking)取得了最佳预测性能,AUC为0.848 (95% CI: 0.783-0.913),显著优于临床模型(DeLong检验p<0.05)及其他融合方法(如投票集成)。该模型在外部测试集上保持了良好的泛化能力,AUC为0.756 (95% CI: 0.692-0.821)。DCA显示,EXT-stacking模型在广泛的阈值概率(约20%至85%)范围内提供了最大的临床净收益。校准曲线表明预测概率与实际观察结果具有良好的一致性。
SHAP分析揭示了EXT-stacking模型的决策过程。全局来看,栖息地模型、DL_2D模型和PERI1mm模型是最终预测的主要驱动因素,而临床模型的影响相对较小。个体水平的SHAP瀑布图直观展示了对特定病例的预测贡献。
本研究成功开发并验证了一种用于术前无创预测ccRCC Ki-67表达的多模态ML模型。提出的EXT-stacking模型整合了栖息地影像组学、瘤周影像组学、深度学习和临床特征,在内部验证集和外部测试集上均表现出优异且稳健的性能。其临床实用性通过DCA得到证实,能在广泛决策阈值下提供净收益。SHAP分析进一步确认了影像学数据的重要贡献,栖息地、DL_2D和PERI1mm是模型预测的最显著驱动因素。
研究的核心发现在于证实了多尺度、多模态信息融合的优越性。栖息地模型通过解析肿瘤内部的功能亚区,克服了传统瘤内影像组学将肿瘤视为同质整体的局限,更精细地刻画了与Ki-67高表达相关的空间异质性,其性能显著优于标准瘤内模型。瘤周区域,特别是紧邻肿瘤的1mm区域,包含了反映肿瘤侵袭性和微环境改变的关键信息。深度学习特征与影像组学特征仅部分相关,表明二者捕获了肿瘤表型中不同且互补的信息,其融合能带来性能提升。研究中2D深度学习模型优于3D模型的现象,提示在特定数据规模下,充分利用预训练权重的2D模型可能是比复杂3D模型更实用和高效的选择。Grad-CAM可视化表明DL模型自主地将注意力集中在与坏死和异质性相关的低密度瘤内区域,这为模型决策提供了直观的生物学解释。
临床因素中,肿瘤直径和血尿是肿瘤负荷和局部侵袭的直接指标,而血小板计数(PLT)的系统性作用则与肿瘤免疫逃逸和增殖促进相关,这为影像特征与全身生物学状态的联系提供了依据。
本研究首次系统比较并整合了栖息地成像、瘤周分析和深度学习等多种先进技术用于ccRCC的Ki-67预测,验证了多模态融合策略的优越性,并为理解肿瘤生物学提供了更深刻的见解。该模型为临床医生在术前识别高增殖活性的肿瘤提供了有力工具,有助于制定更精准的手术方案(如更积极的手术或保肾手术)、优化随访计划以及考虑早期辅助治疗,最终有望改善患者预后。当然,研究也存在一些局限性,如所有中心均来自同一地理区域可能限制模型的普适性,Ki-67阈值的选择尚未统一,模型构建流程相对复杂等。未来工作方向包括在更大规模、多中心前瞻性队列中验证模型、探索不同阈值下的稳定性、开发自动化分割和端到端多模态深度学习框架、整合基因组学/病理组学等多组学数据,并建立预测风险评分与硬临床终点(如总生存期、无复发生存期)的定量联系,以推动其向临床常规应用的转化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号