卵巢癌亚型分类的组织病理学基础模型的综合评价

【字体: 时间:2025年02月01日 来源:npj Precision Oncology 6.8

编辑推荐:

  

  

卵巢癌亚型分类中组织病理学基础模型的综合评估:开拓精准医疗新方向


英国利兹大学计算学院生物医学计算成像与仿真技术中心(Centre for Computational Imaging and Simulation Technologies in Biomedicine, CISTIB)的 Jack Breen 等研究人员,在npj Precision Oncology期刊上发表了题为 “A comprehensive evaluation of histopathology foundation models for ovarian cancer subtype classification” 的论文。该研究为卵巢癌组织病理学诊断提供了关键参考,有助于推动人工智能在医疗领域的深度应用,对提高卵巢癌诊断准确性、优化治疗方案及改善患者预后意义重大。

一、研究背景


卵巢癌是全球女性中第八大常见癌症,预后通常较差,每年有大量新增病例与死亡病例。其包含多种具有不同预后和治疗方案的组织学亚型,准确的组织学亚型分类是诊断过程的关键,但却颇具挑战。病理学家依靠宏观和微观特征进行诊断,一致性仅约 80%。在诊断不确定时,需借助辅助测试或专家二次诊断,这增加了后勤和财务负担。随着癌症发病率上升和诊断复杂性增加,全球组织病理学服务面临巨大压力。

人工智能有望为病理学家提供辅助诊断,提高诊断效率和准确性。然而,目前用于卵巢癌诊断的人工智能模型大多处于小规模原型阶段,尚未获得欧美临床使用的监管批准,其准确性有待提高且缺乏充分的实际测试。

在组织病理学图像分析中,由于全切片图像(WSIs)尺寸过大,传统单实例模型难以处理,常采用多实例学习(MIL)。许多研究使用基于 ImageNet 预训练的 ResNets 进行补丁特征提取,但这些通用特征应用于组织病理学图像时可能并非最优,且计算效率较低。近年来,组织病理学基础模型发展迅速,其利用自监督学习技术生成广泛的组织病理学特征集,在多种任务中表现出色,但相关分析存在深度不足、缺乏严格超参数调优和模型性能比较等问题。

二、研究材料与方法


(一)卵巢癌组织病理学数据


回顾性收集利兹教学医院 NHS 信托基金 2008 - 2022 年间 434 例卵巢癌病例的 1864 张福尔马林固定、石蜡包埋(FFPE)附件组织全切片图像作为训练集,病例需经妇科病理学家诊断为五种常见上皮性卵巢癌亚型之一,且经病理学家独立验证。同时收集了独立的类平衡保留测试集(100 张来自 30 名患者的原发性手术标本 WSIs)和两个外部测试集(包含 80 张 WSIs 的 Transcanadian Study 数据集与包含 513 张 WSIs 的 OCEAN Challenge 数据集 )。

(二)幻灯片分类流程


采用基于注意力的多实例学习(ABMIL)分类管道进行幻灯片分类。首先对 WSI 进行预处理,通过饱和度阈值分割组织与背景,提取组织补丁并调整大小。然后根据不同特征提取模型的特定流程提取补丁特征,将补丁特征输入 ABMIL 分类器进行训练,最终通过全连接神经网络和 softmax 函数生成分类概率。

(三)特征提取模型


共比较 17 种补丁特征提取器,包括 3 种基于 ImageNet 预训练的模型(ResNet50、ResNet18 和 ViT-L)和 14 种通过自监督学习训练的组织病理学基础模型。这些模型均在线可用,部分需申请访问。

(四)评估指标与方法


使用平衡准确率、宏平均受试者工作特征曲线下面积(AUROC)和宏 F1 分数评估模型性能。通过分层五折交叉验证、保留测试和外部验证对模型进行评估,结果通过 10,000 次自举重采样的均值和 95% 置信区间报告。采用配对 t 检验比较模型间差异,调整 p 值以控制错误发现率,p 值小于 0.05 认为差异具有统计学意义 。

(五)归一化和增强分析


评估七种数据预处理技术对基于 ImageNet 预训练的 ResNet50 编码器性能的影响,包括两种染色归一化方法、两种自适应组织检测方法和三种颜色增强方法。

(六)超参数调整分析


对 ABMIL 分类器进行超参数调整,通过迭代网格搜索调整 10 个超参数,比较调整前后模型的性能。

三、研究结果


(一)基础模型性能


不同模型在不同验证集中表现各异,没有单一模型在所有验证中均表现最佳。H - optimus - 0 模型在所有验证中的平均性能最佳,其平均平衡准确率为 83.0%,平均 AUROC 为 0.965,平均 F1 分数为 0.822。基于 CNN 的特征提取模型(RN50、RN18、RN18 - Histo)和基于 ImageNet 预训练的视觉 Transformer 性能相对较差。在分类 LGSC 和 EC 时,部分验证集的 F1 分数较低,存在较多误判情况。

(二)超参数调整和评估程序


超参数调整使模型平均验证损失显著降低,中位数改善为 0.150。多数模型在调整学习率和 ABMIL 模型大小后,验证损失在第一次迭代中就有明显改善。超参数调整对平衡准确率、AUROC 和 F1 分数的中位数影响分别为提高 1.9%、0.005 和 0.025,但不同模型的效果存在差异 。

(三)归一化和增强结果


不同预处理技术对基线 ResNet50 特征提取器的影响不一致。在内部验证和 OCEAN Challenge 验证中影响较小,在 Transcanadian Study 外部验证中部分方法可提高性能,但所有预处理方法均未使基于 ResNet50 的模型性能超越基础模型,且与基线方法相比,没有一种预处理方法在任何验证中产生显著的性能差异。

(四)模型效率


模型的计算运行时间与模型大小呈强正相关() 。最小的模型计算效率最高,如 ResNets、Lunit、CTransPath、Hibou - B 和 Phikon 模型,平均每张 WSI 的推理时间在 75 - 77 秒之间。最大的模型如 Prov - GigaPath 和 H - optimus - 0 推理时间较长,分别平均为 320 秒和 425 秒,且需要更多计算资源。

四、研究结论与讨论


(一)研究结论


  1. 基础模型优势显著:与非领域特定和基于 ResNet 的特征提取器相比,基于 Transformer 的组织病理学基础模型显著提高了下游分类性能。14 个基础模型中有 13 个在所有评估中均优于 ImageNet 预训练模型,仅 RN18 - Histo 未超越,这可能与其非 Transformer 骨干网络、较小的模型规模和预训练数据集有关。
  2. 模型性能影响因素复杂:多数验证中,基础模型性能与模型大小和预训练数据集大小存在弱正相关。一些模型如 UNI 和 Kaiko - B8 在给定模型大小和预训练数据集大小的情况下,表现优于预期,尤其是 UNI 在计算效率和数据效率方面表现突出。
  3. 预处理技术效果有限:不同预处理技术对内部性能和 OCEAN Challenge 验证的影响较小,虽有助于提高对 Transcanadian Study 数据集的泛化能力,但没有一种方法能持续提高性能。选择最优特征提取器比应用多样的预处理技术对下游分类器训练更有价值。
  4. 超参数调整有积极作用:超参数调整对下游 ABMIL 分类器的分类性能有适度但显著的提升作用,多数收益来自调整学习率和 ABMIL 分类器大小。

(二)讨论


  1. 数据质量影响模型性能:不同验证集的性能差异可能与数据质量有关。内部交叉验证数据集包含化疗后的 WSIs,OCEAN 数据集存在数据质量问题,如组织微阵列取芯、坏死、图像拼接问题以及染色和颜色平衡不一致等,导致其性能与交叉验证相似。而 Transcanadian Study 数据集质量较高,使模型在该数据集上表现更好。
  2. 模型误判原因及改进方向:对模型误判样本的分析发现,部分样本的错误分类可能源于真实标签错误或样本具有潜在混淆的形态特征。收集更多训练数据可能有助于提高对相似亚型的区分能力,未来可进一步探究误判样本是否存在共享的潜在分子异常。
  3. 临床应用前景与挑战:组织病理学基础模型在卵巢癌亚型分类中展现出良好性能,有望应用于临床辅助诊断,但仍面临诸多挑战。如模型需适应不同组织病理学实验室和幻灯片扫描仪的差异,对低质量数据和伪影更具鲁棒性,还需提高计算效率以适应临床有限的计算基础设施,同时要解决如何向病理学家有效呈现自动生成信息的问题,提高模型的可解释性和不确定性度量。

综上所述,该研究通过对多种特征提取器的严格验证,证实了组织病理学基础模型在卵巢癌亚型分类中的优势,为后续研究指明了方向。未来需进一步优化模型,克服临床应用障碍,使人工智能技术更好地服务于卵巢癌的诊断和治疗,改善患者的预后。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号