基于临床数据的公共自监督病理学基础模型的评估基准研究

【字体: 时间:2025年04月18日 来源:Nature Communications 14.7

编辑推荐:

  在计算病理学领域,随着公共基础模型数量增多,研究人员开展 “临床基准评估公共自监督病理学基础模型” 的研究。他们利用多中心临床数据评估模型性能,发现模型大小等因素影响性能。该研究为模型训练和选择提供指导,推动领域发展。

  在医学领域,人工智能正掀起一场变革,深度学习的出现让高维数据预测模型的发展大大加速。卷积神经网络(CNN)和视觉 Transformer(ViT)在监督学习的助力下,解决了诸多难题,在各种任务中表现出色。
近年来,自监督学习(SSL)算法异军突起,能在大规模无标签数据集上训练深度神经网络,效果与监督学习策略不相上下。基于此训练出的大型神经网络 —— 基础模型,无需太多微调就能应用于多种下游任务。不过,在医学领域,SSL 算法和基础模型还处于起步阶段,主要是因为缺乏医学数据集和必要的计算基础设施,大规模的 SSL 实验只有资金雄厚的大型机构才能开展。

在病理学方面,问题更为严峻。数字病理学的应用程度低,数据匮乏。而且,数字全切片图像(WSI)比其他图像模态大得多,每个维度的分辨率高达数万到数十万像素,这对图像分析方法和硬件提出了很高要求。目前常见的策略是将切片分成小图块或补丁,用深度神经网络编码,把切片表示为特征向量列表,从而大幅降低维度,之后再用神经网络聚合特征向量得到切片级别的表示。但第一步计算成本极高,所以大多数计算病理学研究依赖在自然图像而非 WSI 上预训练的编码器。因此,直接在病理图像上训练编码器的策略至关重要,而 SSL 无需标签,恰好适合用于训练病理学基础模型,受到了广泛关注,不少学术和非学术机构都在努力构建通用的病理学基础模型。

然而,尽管 SSL 训练的病理学模型潜力巨大,但在可靠应用于临床工作流程之前,仍有不少挑战。比如,与其他领域相比,训练病理学模型的数据集相对较小,在考虑切片或病例数量时尤其如此。而且,目前缺乏对现有模型在多种临床任务上的系统比较。为了解决这些问题,西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)等机构的研究人员开展了相关研究。

研究人员收集了三个医疗中心在标准医院操作过程中产生的病理学数据集,这些数据集包含与临床相关终点(如癌症诊断和多种生物标志物)相关的临床切片。他们利用这些数据集系统评估了公共病理学基础模型的性能,并对训练基础模型的最佳实践和选择合适的预训练模型提供了见解。此外,为方便研究人员在这些临床数据集上评估自己的模型,研究人员还提供了一个自动化的基准测试管道。

在研究中,研究人员设定了疾病检测和生物标志物预测等任务。对于疾病检测任务,研究人员使用来自三个机构的多种癌症和疾病的检测队列数据。结果发现,所有模型在疾病检测任务上表现较为一致,AUC 均高于 0.9。ImageNet 预训练的编码器表现始终不如在病理数据上训练的编码器,CTransPath 在病理训练的编码器中表现相对较差,而其他用 iBOT、DINO 或 DINOv2 训练的基础模型,尽管预训练数据集和模型架构不同,但性能大多无显著差异。综合来看,H-optimus-0、Prov-GigaPath 和 SP85M 在检测任务中表现位居前列。

生物标志物预测任务比疾病检测任务更具挑战性,因为对于某些生物标志物,从 H&E 染色切片中进行预测可能并不可行。研究人员利用不同机构的多种癌症生物标志物预测队列进行研究,结果显示,该任务的性能变异性更大。ImageNet 预训练模型与其他模型的差距更明显,CTransPath 表现较差,H-optimus-0 和 Prov-GigaPath 在大多数任务中表现更优。不过,不同模型在不同生物标志物面板任务中的表现存在差异。比如在乳腺癌 IHC/FISH 生物标志物任务中,H-optimus-0、Prov-GigaPath 和 UNI 表现较好;黑色素瘤体细胞突变面板任务中,各模型差异不明显;肺腺癌(LUAD)的体细胞 NGS 面板任务中,H-optimus-0、Prov-GigaPath 和 UNI 表现突出。此外,在预测非小细胞肺癌(NSCLC)的 ICI 反应任务中,所有模型结果都不理想,UNI 相对表现较好。

研究人员还对模型大小、预训练数据集大小、计算资源、预训练数据集组成等因素对模型性能的影响进行了探究。在模型大小方面,研究发现对于检测任务,模型大小与下游性能的相关性较弱;对于生物标志物预测任务,虽然整体上模型越大性能越好,但这种影响存在任务依赖性。在预训练数据集大小上,无论是基于切片数量还是图块数量,数据集大小与下游性能的相关性都不强。计算资源方面,检测任务和生物标志物预测任务的性能都与训练时的计算成本无明显关联。预训练数据集组成方面,对于肺相关的生物标志物任务,预训练数据集中肺组织的占比与模型性能呈正相关,但在其他器官相关任务中未发现显著相关性。

在模型推理方面,研究人员通过测量最小 GPU 内存需求和最大吞吐量评估模型推理性能。结果表明,在检测任务中,SP85M 在内存和性能之间取得了较好的平衡;在生物标志物任务中,UNI 表现出色。

综合上述研究结果,研究人员得出结论:与新模型相比,ImageNet 预训练的编码器和 CTransPath 表现较差。在疾病检测任务中,DINO 和 DINOv2 训练的模型表现相当;在生物标志物任务中,H-optimus-0、Prov-GigaPath 和 UNI 表现更优。模型大小和预训练数据集组成会影响模型性能,尤其是生物标志物预测任务。此外,推理成本和计算效率因模型而异,SP85M 和 UNI 在性能和资源使用之间达到了较好的平衡。这凸显了预训练数据集组成和模型架构对优化特定任务性能的重要性。

该研究为病理学基础模型的研究和应用提供了重要参考,有助于指导研究人员更好地训练和选择模型,推动计算病理学领域的发展,对未来医学研究和临床应用具有重要意义。其研究成果发表在《Nature Communications》上。

在研究方法上,研究人员首先收集了来自三个机构的临床数据集,涵盖多种疾病检测和生物标志物预测任务。在评估模型性能时,采用蒙特卡罗交叉验证(MCCV)策略,将 80% 的样本作为训练集,20% 作为验证集。对于每个任务,进行 20 次 MCCV 折叠并固定,每次分裂运行两次取平均值。使用 Gated MIL Attention(GMA)模型结合线性分类器对提取的特征进行处理,以此评估模型性能。研究人员选取了多种公开可用的病理学基础模型,包括 CTransPath、UNI 等,并将在 ImageNet 上预训练的截断 ResNet50 作为基线,同时还纳入了两个内部训练的模型 SP22M 和 SP85M。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号