编辑推荐:
为解决公共病理学基础模型性能缺乏系统比较的问题,研究人员开展对公共病理学基础模型性能评估的研究。结果表明不同模型在疾病检测和生物标志物预测任务上表现各异,模型大小和预训练数据集组成影响性能。这为模型训练和选择提供参考,推动计算病理学发展。
在医学领域,人工智能正掀起一场变革,深度学习的出现让高维数据的预测模型发展加速,卷积神经网络(CNN)和视觉变换器(ViT)在众多任务中表现出色。近年来,自监督学习(SSL)算法崭露头角,它能利用大量未标记数据训练深度神经网络,训练出的基础模型可用于多种下游任务。然而在病理学领域,SSL 算法和基础模型的发展却面临诸多阻碍。一方面,数字病理学的应用程度较低,导致数据匮乏;另一方面,数字全切片图像(WSI)尺寸巨大,分析方法和硬件要求都极具挑战性 。而且,目前不同机构训练的公共基础模型数量增多,但缺乏统一的基准来比较它们在多种临床相关任务中的性能。在这样的背景下,来自美国西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)等机构的研究人员开展了一项重要研究,相关成果发表在《Nature Communications》上。
研究人员为了系统地评估公共病理学基础模型的性能,建立了一个临床基准数据集。该数据集包含来自三个医疗中心的临床切片,这些切片与癌症诊断等临床相关终点以及多种生物标志物相关,均来自医院常规操作过程中产生的数据,充分体现了现实世界中的生物和技术变异性。研究人员利用这个数据集,对多个公共病理学基础模型进行了系统评估,并深入探讨了训练基础模型的最佳实践以及如何选择合适的预训练模型。
在研究方法上,研究人员收集了一系列涵盖多种临床相关任务的数据集,这些数据集来自三个不同的机构且用多种扫描仪扫描,分析时数据均在 20x 放大倍数下提取。对于下游任务的训练,研究人员采用了门控多实例注意力(Gated MIL Attention,GMA)模型结合线性分类器的方法。他们从每个幻灯片中提取组织切片,用特定的基础模型将其嵌入到特征表示中,再将幻灯片转换为二维矩阵输入 GMA 模型,从而得到幻灯片级别的表示并进行分类。为评估模型的泛化性能,研究人员使用了蒙特卡罗交叉验证(Monte Carlo Cross-Validation,MCCV)策略,每个任务进行 20 次 MCCV 折叠,并对结果取平均值。研究中考虑的基础模型包括多种公开可用的模型,如 CTransPath、UNI、Virchow 等,还包含两个内部训练的模型 SP22M 和 SP85M,并以在 ImageNet 上预训练的截断 ResNet50(tRes50)作为基线。
研究结果主要分为以下几个方面:
- 疾病检测任务:所有模型在疾病检测任务上表现较为一致,AUC 均高于 0.9。ImageNet 预训练的编码器性能明显不如病理学训练的编码器,CTransPath 在病理学训练的编码器中表现相对较差,可能与其训练数据集较小且使用对比学习算法有关。其他用 iBOT、DINO 或 DINOv2 训练的基础模型性能相近。综合来看,H-optimus-0、Prov-GigaPath 和 SP85M 在检测任务中排名靠前。
- 计算生物标志物预测任务:生物标志物预测任务比疾病检测任务更具挑战性,不同模型的性能差异更大。ImageNet 预训练模型与其他模型的性能差距更为明显,CTransPath 表现仍相对较差,H-optimus-0、Prov-GigaPath 和 UNI 在大多数任务中表现较好。不过,不同模型在不同生物标志物面板任务中的表现有所不同。例如,在乳腺癌 IHC/FISH 生物标志物任务中,H-optimus-0、Prov-GigaPath 和 UNI 表现出色;在黑色素瘤体细胞突变面板任务中,各模型性能差异不明显;在肺腺癌(LUAD)的体细胞 NGS 面板任务中,H-optimus-0、Prov-GigaPath 和 UNI 表现突出。此外,研究发现预训练队列中肺组织的 prevalence 对肺生物标志物预测结果有影响。在预测非小细胞肺癌(NSCLC)的 ICI 治疗反应任务中,所有模型的结果都不理想,UNI 相对表现较好,但仍有较大提升空间。
- 基础模型大小:研究发现,对于检测任务,模型大小与下游性能的相关性较弱;对于生物标志物预测任务,模型大小与性能有一定的正相关趋势,但这种趋势存在任务依赖性。例如,在一些乳腺癌生物标志物任务中,更大的模型并没有优势,而在 NGS 肺任务中优势较明显。
- 预训练数据集大小:无论是检测任务还是生物标志物预测任务,预训练数据集的大小与模型的下游性能没有明显的相关性。预训练使用的幻灯片数量和切片数量对模型性能影响不显著。
- 计算资源:综合考虑模型大小、数据集大小和预训练算法等因素所衡量的计算资源,与检测任务和生物标志物预测任务的下游性能均无明显关联。例如,UNI 在使用相对较少计算资源的情况下,在生物标志物任务中仍能取得有竞争力的性能。
- 预训练数据集组成:研究发现预训练数据集的组成对模型性能有重要影响,且这种影响具有组织特异性。在肺相关任务中,预训练数据集中肺组织的比例与模型性能呈正相关;而在乳腺、结肠直肠和前列腺相关任务中,未观察到明显的相关性。
- 基础模型推理:在模型推理方面,研究人员评估了模型的最小 GPU 内存需求和最大吞吐量(TPS)。对于检测任务,SP85M 在内存需求和性能之间表现出较好的权衡;对于生物标志物任务,UNI 表现突出。同时,在考虑最大吞吐量时,结果与最小内存需求的分析结果基本一致。
研究结论和讨论部分指出,自监督学习和基础模型为医学研究带来了新的机遇,在计算病理学领域比传统监督方法具有更好的性能和泛化性。然而目前,自然语言和图像领域的预训练 SSL 模型的缩放定律在病理学中并不适用,模型大小和数据集大小对性能的影响不像其他领域那么明显。数据集组成可能是影响下游性能的关键因素,未来在预训练数据的整理上需要更多努力。虽然通用基础模型是理想的,但组织特异性基础模型也可能是可行的选择。此外,当前的 SSL 算法在病理学中的性能提升可能已接近饱和,需要算法创新或与其他监督形式结合才能取得更大突破。对于像 ICI 反应预测这样的挑战性任务,仅靠当前大小的切片级编码器可能不足以完全描述相关特征,幻灯片级聚合器可能发挥重要作用,但目前缺乏充分利用组织全局拓扑结构的策略。
这项研究为计算病理学领域的基础模型评估提供了重要的参考,有助于研究人员更好地理解不同模型的性能特点,为模型的训练和选择提供了指导,推动了计算病理学的发展,使人工智能在病理学中的应用更加成熟和完善。