编辑推荐:
Saldanha, Zhu等人提出了一种集成管道,将弱监督学习与通过群学习(SL)进行的局部人工智能(AI)模型训练相结合,以避免对集中数据共享的需求。在国际上部署带有现场数据处理的SL解决了数据隐私和注释可变性等挑战,从而在保护数据隐私的同时实现了跨国际数据集的AI训练。
群体学习与弱监督学习结合:乳腺癌 MRI 检测的新突破
近年来,人工智能在医疗领域的应用备受关注,尤其是在医学影像分析方面。其中,乳腺癌的早期准确检测对提高患者生存率和改善预后至关重要。在这样的大背景下,来自 Else Kroener Fresenius Center for Digital Health, Medical Faculty Carl Gustav Carus, Technical University Dresden(德累斯顿工业大学卡尔?古斯塔夫?卡鲁斯医学院埃尔斯?克罗纳?弗赖森纽斯数字健康中心)等多个单位的研究人员合作开展研究。该研究成果发表于Communications Medicine期刊,为乳腺癌的检测带来了新的思路和方法,在医学影像分析领域具有重要意义。
一、研究背景
(一)乳腺癌筛查现状及挑战
在欧美地区,乳腺癌筛查指南正发生重大变革,磁共振成像(MRI)在乳腺癌筛查中的应用日益广泛。以往,乳房 X 线摄影是乳腺癌检测的主要工具,但最新指南建议对乳腺组织极其致密的女性使用 MRI 进行筛查。这一变化意味着 MRI 的使用量将大幅增加,在欧盟,每年可能有数百万女性接受 MRI 扫描。然而,训练有素的专业放射科医生数量并未相应增加,这使得解读大量 MRI 数据成为一大难题,迫切需要计算机辅助方法,特别是深度学习(DL)技术的支持。
(二)深度学习在医学影像分析中的困境
虽然深度学习在乳房 X 线摄影中展现出一定的临床益处,但在 MRI 乳腺癌检测方面面临诸多挑战。一方面,高质量的深度学习模型通常依赖大量专有数据集,这些数据往往不公开,限制了研究的可重复性和协作性。另一方面,传统的基于三维(3D)放射学数据的肿瘤检测深度学习模型多采用监督学习方式,需要专家手动绘制肿瘤注释作为金标准,这不仅耗费大量时间和人力,而且由于 MRI 数据固有的成像模糊性以及阅片者之间和内部的差异,获取精确的体素级肿瘤边界并不总是可行的,这会影响后续测量和模型性能。此外,其他强监督方法,如边界框注释或质心注释,也存在需要专家输入、主观且模糊等问题。
(三)解决数据共享与标注问题的探索
为解决数据共享难题,联邦学习被提出,它允许在不同站点独立训练多个深度学习模型,无需数据共享。然而,传统联邦学习需要一个中央协调器来聚合模型,存在单点控制和潜在漏洞,与完全去中心化协作的目标相悖,还可能面临可扩展性问题。群体学习(SL)作为一种新兴技术,利用基于区块链的通信和节点间的模型聚合,消除了对中央协调器的需求,使参与机构能够平等、安全地贡献数据,且支持动态参与。但 SL 与弱监督学习结合用于 3D 放射学数据分析的研究尚未广泛开展。在这样的背景下,本研究旨在探索将弱监督学习与 SL 相结合,以解决乳腺癌 MRI 检测中面临的标注成本高和数据共享复杂的问题。
二、研究材料与方法
(一)患者队列
研究使用了五个乳腺癌 MRI 数据集,分别为 “Duke”“USZ”“CAM”“MHA” 和 “UKA”。其中,Duke、USZ 和 CAM 数据集用于实际训练,UKA 和 MHA 数据集作为外部测试队列。Duke 数据集收集于 2000 年至 2014 年美国北卡罗来纳州达勒姆的杜克医院,是公开可用的分期数据集,包含活检确诊的浸润性乳腺癌患者数据。USZ 数据集收集于 2013 年至 2022 年瑞士苏黎世大学医院,数据采集基于特定的纳入标准。CAM 数据集收集于 2014 年至 2021 年英国剑桥大学医院。UKA 数据集收集于 2010 年至 2017 年德国亚琛医院,MHA 数据集收集于 2022 年希腊雅典米特拉医院。这些数据集涵盖了不同地区、不同设备采集的数据,具有一定的代表性。
(二)预处理流程
对所有数据集采用相同的预处理流程。首先将 DICOM 文件转换为 NIFTI 格式,以便区分和存储图像的预对比和首次后对比序列。接着计算首次后对比与预对比图像的差值,生成减影图像(sub - contrast sequences)。然后,根据模型需求对左右乳房体积进行单独裁剪或填充,通过基于强度的定位方法,将高度裁剪为 256 像素,并动态调整裁剪范围以包含乳房区域。最后,根据各数据集的分类对每个乳房体积进行恶性(是 / 否)全局标注,并将图像重采样为统一分辨率 256×256×32 体素,将肿瘤检测问题简化为乳房 MRI 图像全体积的二分类问题,以便用弱监督预测方法进行分析。
(三)群体学习工作流程
研究构建了一个由三个独立 “节点” 组成的 SL 网络来共同训练机器学习模型,预测 MRI 数据中的乳腺癌。每个参与站点持有自己的专有数据,无需在参与者之间共享临床数据。在训练过程中,模型权重在多个同步事件(sync events)中在节点间交换,同步事件发生在每个同步间隔结束时,同步间隔指学习共享发生前的批次数量。每次同步事件时对模型权重进行平均,各节点使用平均后的参数继续训练。研究采用加权平均方法,根据各节点贡献量的比例确定权重因子。模型同步的元数据存储在以太坊区块链上,由区块链管理模型的全局状态信息。研究使用 Hewlett Packard Enterprise(HPE)的 SL 实现,其包含四个组件:SL 过程、Swarm Network(SN)过程、身份管理和 HPE 许可证管理,所有过程或节点均在多个 Docker 容器中运行。
(四)实验设计
研究主要探究了基于 CNN 的 2D、基于 CNN 的 3D 和基于 MIL 的工作流程这三类深度学习模型的性能。使用 SL 技术,设置三个节点,每个节点分配一定比例的训练数据集,并将其性能与基于集中式数据集训练的模型(集中式模型)进行比较。实验中,80% 的 Duke 数据集用于训练,20% 作为内部测试队列,UKA 数据集专门用于外部验证。在 SL 技术中,按患者级别平衡良性和恶性病例的比例,将 Duke 数据集的训练分区以 40%、30% 和 10% 的比例分配到三个独立的裸机服务器上的学习节点。数据分区在患者级别随机且分层进行,确保每个分区基于患者整体而非单个乳房。所有模型训练完成后,在内部测试队列和完整的外部队列(UKA)上进行验证。此外,还进行了实际群体训练,利用 Duke 的开源数据以及 USZ 和 CAM 队列在各自中心进行训练,模型以随机权重初始化,训练完成后进行最终的权重合并,最后在 MHA 和 UKA 数据集上进行验证,实验重复五次以考虑变异性并测量模型性能的稳定性。
(五)AI 方法
通过全面的文献调研,研究选择了多种深度学习模型进行实验。2D - CNN 模型将 3D MRI 数据分割成 32 个切片,每个切片 256×256 像素,基于 2D - ResNet50 架构,采用弱监督学习方法,根据整个体积的肿瘤情况对切片进行标注,模型独立处理每个切片,通过选择所有切片中的最高分数作为整个体积的预测分数。3D - CNN 模型如 3D - ResNet18、3D - ResNet50、3D - ResNet101 和 3D - DenseNet121,通过 3D 卷积层、池化层、归一化层和残差连接来处理 3D 数据,利用乳房 MRI 数据的 3D 结构捕捉体积和空间信息,提升分类性能。MIL - 基于的方法包括注意力机制的 MIL(Att - MIL)、基于视觉 Transformer 的 MIL(ViT - MIL)和基于视觉 Transformer 与 LSTM 的 MIL(ViT - LSTM - MIL),通过特征提取和训练,利用注意力机制评估不同实例的重要性,合并多个切片的预测结果得到 MRI 体积的综合预测。
(六)可解释性分析
采用 GradCAM、GradCAM++ 和遮挡敏感性分析(OCA)三种技术对模型预测进行可视化。GradCAM 通过可视化模型最后卷积层中目标类别的梯度,突出显示图像中对模型预测有强烈影响的区域。GradCAM++ 是 GradCAM 的扩展,使用更高阶导数并考虑像素级贡献,提供更精细的可视化。OCA 通过系统地遮挡输入图像的不同部分并监测对模型输出的影响,根据预测概率的变化判断被遮挡部分在模型决策中的重要性。可视化在从第 5 到第 27 层均匀选择的 16 个切片上进行,以全面且可管理的方式展示体数据。
(七)统计分析与硬件配置
所有实验使用不同随机种子重复五次,分类性能的主要统计指标是受试者工作特征曲线下面积(AUROC)。应用 DeLong 检验评估和比较基于 AUROC 的模型性能,计算每个模型五次重复的中位数患者得分,以 p<0.05 判断模型性能是否有显著差异,AUROC 以平均值 ± 标准差报告。还对表现最佳的模型进行了更多评估指标计算,如 F1 分数、灵敏度、特异性、阳性预测值(PPV)和阴性预测值(NPV)。在三个中心,为计算任务部署了不同硬件配置的 SL,包括不同版本的 Ubuntu 操作系统、不同容量的 RAM 和不同型号的 NVIDIA GPU,且每个系统都连接至少 10 MBit/sec 的互联网以确保网络连接稳定。
三、研究结果
(一)模拟 SL 与集中式模式的比较
使用 80% 的 Duke 数据集训练选定模型,并在剩余 20% 的 Duke 数据集上进行内部验证。结果显示,在 SL 技术下,3D - ResNet 模型的性能显著优于 2D 模型。其中,3D - ResNet101 的 AUROC 最高,达到 0.792 [±0.045],其他 3D - ResNet 模型如 3D - ResNet50 和 3D - ResNet18 的 AUROC 分别为 0.766 [±0.050] 和 0.768 [±0.022]。MIL 技术的 AUROC 相对较低,如 ViT - MIL 为 0.740 [±0.019],ViT - LSTM - MIL 为 0.748 [±0.008],Att - MIL 为 0.650 [±0.091],2D - ResNet50 的 AUROC 仅为 0.608 [±0.008] 。将 SL 技术与集中式模型的性能进行比较,发现 SL 技术的性能与集中式数据集训练的模型相当,无显著差异。
(二)不同弱监督工作流程在外部队列上的泛化性
将内部验证实验中训练的模型部署到来自德国亚琛 Uniklinik Aachen(UKA)的外部数据集上进行验证。结果表明,所有模型在外部验证实验中的性能均略有下降,但 3D - ResNet 模型仍优于其他测试模型。3D - ResNet101 在外部验证中表现最佳,SL 技术下的 AUROC 为 0.770 [±0.021],集中式数据集下为 0.742 [±0.026]。2D - ResNet50 在 UKA 数据集上使用 SL 的验证性能最低,为 0.578 [±0.049]。此外,与集中式模型相比,SL 模型在外部验证中的性能下降幅度更小,表明 SL 模型可能具有更好的泛化性。
(三)国际 SL 网络中的实际训练与验证
在瑞士的 USZ、英国的 CAM 和位于德国德累斯顿的 Duke 数据集所在机构构建 SL 训练网络,训练 3D - ResNet101 模型,并在希腊雅典的 Mitera Hospital(MHA)和德国的 UKA 进行验证。在 UKA 数据集上,本地训练的 Duke、USZ 和 CAM 模型的 AUROC 分别为 0.743 [±0.025]、0.538 [±0.033] 和 0.703 [±0.025],而 SL 训练的模型 AUROC 为 0.807 [±0.024],显著优于本地训练模型。在 MHA 数据集上,本地训练的 Duke、USZ 和 CAM 模型的 AUROC 分别为 0.729 [±0.024]、0.520 [±0.040] 和 0.673 [±0.036],SL 训练的模型 AUROC 为 0.821 [±0.013],同样优于本地训练模型。此外,SL 模型在 F1 分数、灵敏度、特异性、PPV 和 NPV 等指标上也表现更优。通过 GradCAM++ 和 OCA 对模型预测进行可视化分析发现,OCA 能更精确地识别恶性增强病变,表明模型聚焦于肿瘤区域,且 OCA 的定位更精准。
四、研究结论与讨论
(一)研究结论
本研究成功将弱监督学习与 SL 相结合,应用于乳腺癌 MRI 检测的深度学习模型训练。实验结果表明,3D - ResNet101 模型在多种弱监督工作流程中表现最佳,且通过 SL 协作训练的模型性能优于本地训练的模型,即使在数据集较小的情况下,也证明了在国际上部署 SL 并进行现场数据处理的实际可行性。这种结合方式增强了机构间的协作,提高了分布式数据集在医学 AI 训练中的效用,无需详细注释或集中数据共享。
(二)研究意义
该研究成果具有重要的意义。在医学领域,为乳腺癌的早期检测提供了更有效的方法,有助于提高诊断准确性,改善患者预后。从技术层面看,解决了医学影像分析中数据标注和共享的难题,为深度学习在医学领域的应用开辟了新的道路。通过 SL 实现去中心化的模型训练,保护了患者数据隐私,促进了多机构间的合作。此外,研究为后续大规模研究奠定了基础,推动了临床环境中深度学习模型的发展和部署。
(三)研究局限性与展望
研究也存在一些局限性。训练数据集相对较小,可能影响模型性能和研究结果的泛化性;模型主要在已诊断出肿瘤的患者 MRI 扫描数据上训练和测试,不能很好地反映更广泛筛查人群的情况;弱监督标签虽减少了注释需求,但可能引入噪声影响模型性能;三节点的 SL 配置相对简单,实际协作可能涉及更多机构和复杂的数据分布问题;高维模型如 3D - ResNet 的计算成本较高,在资源有限的环境中应用存在挑战。未来研究可通过增加患者数量、纳入更多全球中心的数据、探索减轻噪声标签影响的策略以及优化模型计算效率等方式,进一步提升模型的预测性能,并在更大、更多样化的人群中验证该方法,为基于 MRI 的癌症筛查开发临床级深度学习系统提供更坚实的支持。