《Artificial Intelligence Chemistry》:ProtoRadNet: Prototypical patches of Convolutional Features for Radiology Image Classification Network
编辑推荐:
放射学图像分类的可解释性研究提出ProtoRadNet模型,通过原型学习增强卷积神经网络的解释性,构建全局和局部可解释性体系。该模型采用复合损失函数优化,在脑MRI、胸部CT等四个医学数据集上F1分数分别提升2.04%、0.73%、0.41%,优于现有方法。
普拉蒂克·萨兰吉(Prateek Sarangi)| 瑞亚·阿加瓦尔(Riya Agarwal)| 坦梅·巴苏(Tanmay Basu)
印度科学教育与研究学院数据科学与工程系,博帕尔(Bhopal),博帕尔绕行路(Bhopal Bypass Road),鲍里(Bhauri),博帕尔,462066,中央邦,印度
摘要
卷积神经网络(CNN)在医学影像分类方面取得了显著的成功;然而,它们的实现往往像一个“黑箱”,由于缺乏可解释性,限制了医疗从业者理解和信任模型决策的能力。最近基于补丁的原型网络的进展试图提高图像分类系统的可解释性。尽管如此,这些专门为医学影像领域开发的模型的应用仍然有限。本文介绍了ProtoRadNet——一种用于医学影像分类的卷积特征原型网络。ProtoRadNet在分类任务中提供了对识别出的原型的明确可视化,从而为其决策提供了透明的解释,并有效地弥合了CNN发现与其在实际应用之间的差距。ProtoRadNet的主要目标是在各个类别内以及所有类别中识别出重要的卷积特征原型,通过精细化CNN的训练来增强可解释性,而不是不加区分地依赖所有卷积特征。该模型通过整合类别间和类别内的原型,实现了局部和全局的可解释性,从而改进了整体决策过程。这种可解释性尤其值得注意,因为它仅使用图像级别的真实标签来实现,对于现实世界应用来说具有语义意义,在这些应用中,详细的注释往往不可用或耗时。实证评估表明,在大多数情况下,ProtoRadNet的表现优于现有最佳方法。在Brain MRI、Chest CT和MIMIC CXR-LT数据集上,它的宏观平均F1分数分别为、96.14%和93.73,比最佳竞争方法分别提高了2.04%、0.04和0.41。这些结果展示了我们ProtoRadNet模型的价值和有效性。
引言
将深度学习整合到医学成像中,显著提高了诊断的准确性和效率[1]。卷积神经网络(CNN)的最新进展大幅提升了医学图像分类任务的性能[2]、[3]、[4]、[5]。尽管取得了这些成就,但这些模型通常作为“黑箱”运行,几乎不提供关于其决策过程的信息,且难以解释。缺乏可解释性是临床实践中的一个重大障碍,因为医疗专业人员必须理解人工模型的发现才能确保正确的诊断和治疗[6]、[7]。在医学影像领域,这一点尤为重要,因为决策直接影响患者的结果和治疗策略。近年来,基于原型的学习已成为提高深度学习可解释性的重要方法。陈等人[8]提出的原型部分网络(ProtoPNet)标志着这一领域的重大进展。ProtoPNet获取与独特图像片段相关的类别特定原型,通过原型匹配实现可视化解释。这种方法具有潜力;然而,它对每个类别的原型进行刚性分配,常常导致冗余或临床相关性较低的解释,限制了其在医学影像中的应用,而在医学影像中,简洁准确的解释至关重要。ProtoPShare[9]实现了一种剪枝算法来去除冗余原型,同时保持准确性。ProtoPFormer[10]将原型学习整合到变换器设计中,扩展了原型在擅长捕捉长距离依赖关系的模型中的实用性。ProtoTree[11]通过将原型结构化为决策树来提高可解释性。ProtoPool[12]促进了跨类别原型共享,减少了冗余并增强了模型的适应性。尽管这些模型在常规图像分类任务中表现出稳健的性能,但尚未有模型成功应用于医学影像分类。医学影像(如CT扫描)的独特挑战包括适当管理类别内的变异性和识别具有临床意义的模式等。据我们所知,现有的基于原型的架构无法解决这些医学影像解释的细微问题。
ProtoRadNet是一种新颖的基于补丁的原型网络,旨在提高医学影像分类任务的可解释性。它将原型学习与最先进的CNN结合,以改进分类结果的全面推理。这是通过一个复杂的损失框架实现的,该框架包括对齐损失(alignment loss)、tanh损失(tanh loss)、均匀性损失(uniformity loss)和支持向量损失(support vector loss)。ProtoRadNet具有两种可解释性:全局可解释性和局部可解释性。全局可解释性通过对齐损失提供了对模型决策过程的洞察。局部可解释性通过tanh损失和均匀性损失强调每个分类的个别预测。这些原型创建了线性可分离且均匀分布的簇,涵盖了医学影像数据集中的可接受灰度变化和复杂解剖特征,包括CT扫描、胸部X光和MRI扫描[13]、[14]。
本文的主要贡献包括:
- 提出了一种名为ProtoRadNet的新颖基于补丁的原型网络,专为医学影像分类设计。
- ProtoRadNet是医学影像领域首个解决模型预测可解释性问题的模型,这对于诊断至关重要。
- 通过一个复杂的集成损失框架,同时解决了医学影像分类中的全局和局部可解释性问题。
本文的其余部分安排如下:第2节描述了相关工作。第3节解释了所提出的方法。第4节展示了实验评估,最后我们在第5节进行总结。
相关研究
医学成像中可解释AI领域的发展采用了多种方法论框架;然而,大多数方法都受到事后可解释性的限制,而不是内在的可解释性。基于梯度的解释方法(如GradCAM [15]、GradCAM++ [16]和Spatial Sensitive GradCAM++ [17]),结合基于扰动的技术(如LIME [18]),在模型训练和推理之后生成解释,从而导致
方法论
ProtoRadNet将可解释的基于原型的学习与卷积神经网络(CNN)相结合,用于对来自不同模态的医学图像进行分类,例如磁共振成像(MRI)、胸部计算机断层扫描(CT)和X光。ProtoRadNet的主要目标是通过学习与特定类别相对应的视觉原型来提供透明的决策过程,从而弥合模型预测与临床可解释性之间的差距。
结果与分析
本节全面分析了我们提出的ProtoRadNet模型与现有最先进方法在医学图像分类方面的性能。我们在四个不同的医学影像数据集上进行了广泛的实验:Brain MRI、Lung CT、MIMIC CXR-LT(胸部X光)和Alzheimer’s MRI。这些数据集代表了临床实践中常见的不同模态和诊断挑战,为我们的方法提供了稳健的评估框架。
讨论与结论
本节讨论了我们的实验结果的意义,并提供了关于ProtoRadNet在医学图像分类中的临床实用性和可解释性的见解。
CRediT作者贡献声明
普拉蒂克·萨兰吉(Prateek Sarangi):撰写——原始草稿、可视化、方法论、正式分析、概念化。瑞亚·阿加瓦尔(Riya Agarwal):撰写——审阅与编辑、验证、调查、正式分析。坦梅·巴苏(Tanmay Basu):撰写——审阅与编辑、验证、监督、资源管理、项目协调。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。