评估生成式人工智能规范表示学习,开启脑部成像稳健异常检测新征程

【字体: 时间:2025年02月15日 来源:Nature Communications 14.7

编辑推荐:

  为解决传统异常检测忽视规范学习问题, 研究人员开展生成式 AI 规范表示学习用于脑部成像异常检测研究。结果显示新指标可评估模型,且与临床评估相关。该研究对疾病诊断、治疗意义重大,值得科研人员阅读。

  

评估生成式人工智能中的规范表示学习,用于脑部成像中稳健的异常检测


摘要:规范表示学习旨在从大量健康个体的医学扫描数据集中理解典型的解剖分布。生成式人工智能(Generative Artificial Intelligence, AI)利用这一特性合成能够准确反映这些规范模式的图像。这一能力使人工智能能够在无需专家标注的情况下,有效地检测和纠正新的、未见过的病理数据中的异常情况。传统的异常检测方法通常仅评估异常检测性能,却忽视了规范学习的关键作用。在本次分析中,[第一作者单位] 的研究人员引入了专门设计用于评估人工智能模型中这一方面的新指标。研究人员将这些指标应用于各种生成式人工智能框架,包括先进的扩散模型,并针对复杂多样的脑部疾病对它们进行了严格测试。此外,研究人员还开展了一项大型多读者研究,将这些指标与专家评估进行比较。分析表明,擅长规范学习的模型具有出色的通用性,能够熟练检测各种未见过的医疗状况。研究代码可在https://github.com/compai-lab/2024-ncomms-bercea.git获取。


医学成像技术的不断进步显著提升了疾病诊断能力,但也带来新挑战:如何从海量医学成像数据中提取有价值的见解。这凸显了开发自动化诊断工具的紧迫性,此类工具需能高效处理数据,提供准确及时的诊断,从而减轻医疗系统负担。计算机辅助诊断,尤其是采用监督学习的方法,在这一方向上取得了重大进展,使机器能够识别各种成像模态中的疾病模式。然而,这些方法在充分捕捉人类疾病的复杂性和罕见性方面常常面临困难,特别是在缺乏大量带注释数据集的情况下。


为应对这些限制,无监督异常检测(Unsupervised Anomaly Detection, UAD)受到关注,它有望在不依赖标记数据的情况下自主检测异常。无监督异常检测的应用潜力涵盖多种成像模态,从脑部磁共振成像(Magnetic Resonance Imaging, MRI)到胸部 X 光等,这预示着诊断方法的变革。尽管如此,无监督异常检测在临床应用中仍面临挑战,包括对某些病理特征的偏差以及这些 “黑箱” 系统的不透明性。


生成式人工智能为异常检测带来了新的视角,它能够巧妙捕捉医学图像中 “正常” 的细微差别。生成式人工智能的真正创新在于规范表示学习,这一概念由数据驱动,旨在揭示健康人群的特征。在此,异常检测起到补充作用,专注于找出与这些学习到的表示的偏差。然而,对生成式人工智能方法的评估往往过度偏向于异常检测,导致评估存在偏差或不完整。例如,某些方法仅针对高强度病变检测进行优化,围绕大肿瘤设计其原理,或者通过自监督或弱监督来近似未知的异常分布。虽然这些方法在检测特定病理方面可能具有优势,但在更广泛的异常检测场景中往往存在不足。


为解决这一关键差距,[第一作者单位] 的研究人员倡导重新调整对生成式人工智能的评估方向,强调其在规范表示学习中的内在作用。这种方法标志着对生成式人工智能评估的转变,将其定位不仅是疾病识别的工具,更是评估医学成像中生成的反事实图像的真实性和合理性的系统。


提出的指标


[第一作者单位] 的研究人员提出了特定指标来评估伪健康重建的质量:


  • 重建质量指数(Restoration Quality Index, RQI):这是一种基于图像的指标,通过测量合成图像与原始输入的语义相似性来评估其感知质量。

  • 异常与健康指数(Anomaly to Healthy Index, AHI):用于衡量重建的病理图像分布与健康参考集的接近程度。

  • 健康保护和异常校正指数(Healthy Conservation and Anomaly Correction Index, CACI):用于衡量模型在保持健康区域完整性和校正病理区域异常方面的有效性。


这些指标共同提供了更全面的评估,超越了简单的异常映射,涵盖了对人工智能模型生成的规范和伪健康表示的质量和准确性的评估。


用于无监督异常检测的生成式人工智能的发展历程


生成式人工智能在医学成像异常检测方面的影响经历了不同的发展阶段,每个阶段都标志着该领域的关键进步。


  • 自动编码器(Autoencoders, AEs):为无监督异常检测奠定了基础,其假设是异常会导致更高的重建误差。尽管有前景,但自动编码器在对训练数据之外的数据进行泛化时难以兼顾细节,导致异常误判。

  • 变分自动编码器(Variational Autoencoders, VAEs):对潜在变量引入了概率约束,通过细致的后验分布近似推进了异常检测。然而,高维数据表示的挑战仍然影响重建质量。

  • 生成对抗网络(Generative Adversarial Networks, GANs):通过对抗训练彻底改变了数据合成,显著提升了异常检测能力。但其模式崩溃的倾向和在保留健康组织方面的局限仍是需要改进的关键领域。

  • 混合模型:如对抗自动编码器(Adversarial Autoencoders, AAEs),结合了变分自动编码器的结构化潜在空间和生成对抗网络卓越的图像生成能力。但在处理健康区域的差异时仍面临挑战。

  • 扩散模型:通过在无潜在空间约束的情况下捕捉复杂特征,革新了生成建模。在医学异常检测中,扩散模型逐步向病理输入添加噪声,在将其有条不紊地恢复到伪健康状态之前,将异常隐藏到一定阈值。然而,噪声水平的选择仍然是一个重要挑战。

  • 引导恢复技术:利用上下文编码和掩蔽策略提高诊断准确性。结合从健康结构派生的形状先验以及在掩蔽自动编码器(Masked Autoencoders, MAEs)和补丁扩散模型(Patched Diffusion Models, pDDPM)中使用的随机掩蔽等技术,在异常检测中提供了细致的适应性。最近的进展包括自动掩蔽策略,能够智能地仅转换可能包含异常的区域,同时保留健康组织的完整性。


结果


在对生成式人工智能模型的评估中,[第一作者单位] 的研究人员使用了正常的 T1 加权脑部 MRI 数据集,即包含 176 次扫描的 FastMRI + 数据集和来自 IXI 的 581 个样本,用于模型训练。在评估阶段,研究人员重点关注两个关键数据集:增强的 FastMRI + 数据集,其中涵盖了 171 种广泛的脑部疾病;以及来自 ATLAS v2.0 数据集的 420 名受试者,该数据集以其多样的中风病变而闻名。这种策略使研究人员能够严格测试不同模型在检测和定位各种异常方面的能力,并根据现实世界脑部疾病的复杂性和多样性对其性能进行基准测试。更多详细信息见补充图 1 和图 2。


规范学习评估


研究人员的分析主要围绕规范表示学习展开,这是确保模型准确表示健康解剖模式的关键方面。图 3 总结了结果。


这些指标中的每一个都从独特的角度反映了生成模型的性能。例如,像自动编码器这样简单复制输入图像的方法,重建质量指数得分较高,但异常与健康指数和健康保护和异常校正指数得分较低。相反,变分自动编码器、潜在变压器模型(Latent Transformer Models, LTMs)和掩蔽自动编码器等去除异常并提高健康保护和异常校正指数的方法,往往会产生模糊的输出,导致重建质量指数较差。异常与健康指数要求合成图像的分布与健康集紧密相似,对许多方法来说颇具挑战,常常导致得分接近零。值得注意的是,弗雷歇初始距离(Fréchet Inception Distance, FID)要求特别高;即使是生成逼真健康图像但缺乏多样性或存在轻微域转移的方法,如随机对抗网络(Randomized Adversarial Network, RA)或去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)-G,也难以获得良好的分数。使用智能掩蔽的引导恢复技术往往能取得最佳分数。


因此,综合考虑这些指标至关重要,而不是孤立地看待它们。最佳性能的特征是在重建质量指数、异常与健康指数和健康保护和异常校正指数上都取得高分,这表明模型具有全面理解和复制健康解剖结构的能力,同时能够有效地识别和纠正异常。为了融合这些指标,研究人员提出在重建质量指数和健康保护和异常校正指数之间取调和均值,并与异常与健康指数求平均。这种方法在平衡图像质量和异常校正的同时,减轻了异常与健康指数接近零的分数对整体评估的影响(见公式(4))。


异常检测性能


异常检测结果(详见表 1)揭示了各种生成式人工智能模型性能的显著见解(完整结果请参考补充表 1)。PHANES 和 AutoDDPM 在掌握医学成像的规范方面表现尤为出色,这有效地转化为它们在异常检测中的领先地位。在 FastMRI + 数据集中,AutoDDPM 取得了巨大成功,检测出了 171 种病理中的 159 种。PHANES 在识别脑室扩大方面表现卓越,在 ATLAS 数据集中分割大的中风病变时特别有效。相比之下,AutoDDPM 对较小的中风病变表现出更高的敏感性。这些发现凸显了通过重建质量指数、异常与健康指数和健康保护和异常校正指数衡量的高规范学习分数在确定模型应对医学图像分析复杂性的能力方面的预测能力。


有趣的是,结果进一步揭示了在规范学习指标中得分中等或较低的模型的有效性存在差异。这些模型在不同数据集上的结果不一致,表明它们依赖于特定的病理类型和数据集特征。例如,掩蔽自动编码器模型在中风病变检测中排名第 7,在识别大病变方面表现出色,但在 FastMRI + 基准测试中检测更具多样性和细微的异常(如水肿或较小病变)时仅排名第 12。这种在不同条件下性能的不一致性强调了综合考虑重建质量指数、异常与健康指数和健康保护和异常校正指数分数以评估模型在广泛病理范围内异常检测泛化能力的重要性。


规范学习与异常检测之间的相互作用


研究人员深入分析了规范学习指标与异常检测指标(如 Dice 系数或 F1 值,见表 1)之间的关系,揭示了关键见解。


如图 4 的弦图和顶部热图所示,分析强调了规范学习指标在通用异常检测中的关键作用。值得注意的是,虽然像重建质量指数这样的单个指标提供了有价值的见解,但单独考虑时其诊断影响有限。例如,仅关注重建质量指数的模型可能会复制异常,从而错过关键检测。相反,健康保护和异常校正指数对异常检测具有较高的预测价值。然而,当综合分析这些指标时,尤其是将所有三个指标(重建质量指数、异常与健康指数、健康保护和异常校正指数)整合时,能获得最全面的见解,并显示出增强的异常检测预测能力。这凸显了平衡规范学习方法在对各种病理进行泛化方面的重要性。有趣的是,研究人员观察到一种负相关关系,即较高的规范指标与 “副鼻窦浑浊” 病例的检测减少相关。经专家神经放射科医生审查,这些病例没有明显的病理视觉迹象。具有较高假阳性倾向的方法可能会在这些病例中错误地检测出问题,这可能是由于受影响区域靠近颅骨,该区域容易出现假阳性。


研究人员对规范学习指标排名前五的方法进行分析后,得出两个重要观察结果。第一,在检测白质病变(White Matter Lesions, WML)时发现了负相关关系。专家神经放射科医生指出,一些病变不可见,常被显著的运动伪影掩盖,而这些运动伪影通常不被归类为异常。第二,较高的异常与健康指数似乎对广泛中风病变的量化产生负面影响。这种趋势可能与这些病变的标注和评估方式有关。病理学家通常会标记受中风影响的整个区域,包括受影响和健康的组织。因此,擅长在不改变健康组织的情况下使病理区域正常化的模型,在这些区域的重叠度往往较低,导致 DICE 分数较低。这种问题在较大病变的情况下更为明显,如 AutoDDPM 的性能所示。这些发现表明,可能需要重新审视当前的标注和评估方法,特别是在关注量化病理负担时。


在规范学习指标中得分仅为中等(平均排名第 4)的模型,其诊断能力往往不一致,这表明它们可能过度拟合特定场景,而不是具备广泛的疾病检测能力。这些在重建质量指数、异常与健康指数和健康保护和异常校正指数得分未达最佳的模型,通常在有限的情况下表现出色,但在各种病理中缺乏广泛的适用性。


效果较差的方法(排名后 5)在重建质量和异常检测性能之间表现出显著的负相关。这一发现与现有文献一致,文献指出具有密集潜在空间的方法,通常产生不太清晰的重建,却可能出人意料地优于更先进的方法。然而,这种趋势可能会无意中导致研究人员专注于针对有限范围的病理优化异常检测,这些病理通常具有明显的特征,如高强度或低强度病变。追求这一狭窄的研究方向可能会开发出适应性有限和临床实用性降低的模型。


临床验证


为了评估不同人工智能算法的性能并验证研究人员提出的定量指标 —— 重建质量指数和异常与健康指数,研究人员进行了一项全面测试,涉及 16 名放射科医生。每位放射科医生以随机顺序获得 180 张图像,其中包括 30 张无病理的原始图像以及来自每种人工智能方法的 30 张图像(15 张来自 ATLAS 数据集,15 张来自 FastMRI + 数据集)。放射科医生对每张图像的 “真实度”(1 表示可能是假的,5 表示真实)、“图像质量”(1 表示差,5 表示优秀)和 “健康状况”(1 表示病理,5 表示健康)进行评分。在盲测环境中评估健康保护和异常校正指数具有挑战性,因为放射科医生以随机顺序查看未知图像,无法分析输入 - 重建对。


讨论


研究人员的分析标志着医学成像领域生成式人工智能的重大转变,倡导强调规范表示学习。为实现这一目标,研究人员引入了新的指标 —— 重建质量指数、异常与健康指数和健康保护和异常校正指数,旨在评估人工智能模型对潜在正常解剖结构的学习程度。研究结果表明,这些指标能够反映模型在不依赖预定义标签或疾病特征预期的情况下,对各种情况进行泛化的能力。研究人员通过 16 名放射科医生进行了全面的临床验证,发现提出的重建质量指数,以及在较小程度上的异常与健康指数,与临床评估具有良好的相关性。


在临床上,这具有重要意义。掌握规范学习的模型能够辨别细微的病理差异,这对于早期疾病检测和准确诊断至关重要。除了改善诊断外,这些分析的见解还可扩展到术前规划、治疗监测以及培训医疗保健专业人员。此类模型提供的伪健康重建可以作为 “基线” 视图,据此可以准确评估偏差。这在复杂情况下,如脑容量损失,尤其有益。在这种情况下,健康和病理状态之间的区别往往不明确,而是存在于一个连续体上。这些模型准确表示这一范围的能力对临床医生来说非常宝贵,有助于更细致的诊断和治疗规划。最终,这些人工智能模型可以帮助临床医生更深入地理解潜在的病理生理学。这有助于提出新的假设并推进医学研究,最终有助于改进患者护理策略。


尽管取得了有前景的进展,但将这些人工智能系统无缝集成到临床工作流程中仍面临挑战。作为患者分诊的关键工具,这些系统必须在各种扫描协议下表现出稳健性,并能够适应不同的患者群体。此外,虽然二维生成模型可以生成高质量的切片,但在完整的三维环境中往往难以保持空间完整性。未来的工作可以在轴向、冠状和矢状平面上评估这些模型,以评估它们在构建准确三维结构方面的一致性。



相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号