CRMA-UNet:基于CNN+ResMamba模型及注意力机制的视网膜血管分割方法
《Expert Systems with Applications》:CRMA-UNet: CNN+ResMamba-based and attentional mechanisms for retinal vessel segmentation
【字体:
大
中
小
】
时间:2025年08月07日
来源:Expert Systems with Applications 7.5
编辑推荐:
提出基于CNN与Mamba的CRMA-UNet视网膜血管分割模型,通过ResMamba残差结构优化和PAFF并行注意力特征融合模块,结合CNN局部特征与Mamba长程依赖建模能力,显著提升分割精度与效率。
近年来,视网膜血管分割技术在医学影像分析领域受到了广泛关注。这项技术对于医生进行临床诊断和筛查眼科疾病具有重要意义。视网膜血管作为人体唯一可以直接通过肉眼观察到的血管系统,其形态变化能够反映出多种全身性疾病,如高血压、糖尿病及其他血管疾病,甚至包括贫血、白血病等血液相关疾病。因此,对视网膜血管进行精准的分割不仅有助于疾病的早期发现,还能够为治疗方案的制定提供依据。
然而,传统的视网膜血管分割方法往往依赖人工标注,这一过程不仅繁琐,而且需要较高的专业技能。随着全球人口老龄化的加剧,眼科疾病患者数量迅速增加,人们对眼健康的需求也日益提升,这使得眼科医生的工作负担显著加重,难以满足临床实践对视网膜血管分割的需求。因此,自动化的视网膜血管分割技术成为亟需发展的方向。它不仅能够降低医生的标注时间与工作量,还能提高诊断的准确性和效率,从而激发了对自动分割方法的更高研究热情。
目前,研究人员已经设计了多种视网膜血管分割方法,其中包括基于传统机器学习的算法,如支持向量机(SVM)、随机森林(Random Forest)等。这些方法虽然在某些情况下表现出较强的鲁棒性,但在性能和效率方面仍存在不足。一方面,它们的泛化能力较弱,难以适应不同类型的医学影像数据;另一方面,其处理过程较为复杂,无法满足实时性要求。因此,尽管这些方法在实际应用中具有一定价值,但其局限性也逐渐显现。
随着深度学习技术的快速发展,卷积神经网络(CNN)在视网膜血管分割领域得到了广泛应用。例如,Jonathan Long 等人提出的全卷积网络(FCN)通过 CNN 实现了对视网膜血管的精准分割,而 U-Net 网络则因其高效的结构设计被广泛应用于视网膜血管分割任务。DUNet 和 FAF-Net 等后续研究进一步改进了 U-Net 的性能,通过特征融合等手段提升了分割效果。然而,尽管 CNN 在局部特征提取方面表现出色,但在建模全局上下文关系方面存在局限,这可能导致像素级别的分割错误。
与此同时,Transformer 架构的出现为解决全局建模问题提供了新的思路。Vaswani 等人提出的 Transformer 通过自注意力机制能够高效地捕捉长距离依赖关系,因此在图像分割任务中表现出较强的性能。近年来,CNN-Transformer 混合架构逐渐成为主流,通过结合 CNN 的局部特征提取能力和 Transformer 的全局建模能力,显著提升了视网膜血管分割的效果。例如,DT-Net 使用了 CNN 和 Transformer 的混合模块,G2ViT 则通过串联 CNN、GNN 和 ViT 实现了优秀的分割结果。Lin 等人设计的 SGAT-Net 则将 CNN 融入 Transformer,进一步提升了视网膜血管分割的性能。ARP-Net 采用双分支结构,分别使用 Transformer 和 CNN,实现了对全局和局部特征的全面提取。
尽管 Transformer 在全局建模方面表现出色,但其较高的计算复杂度限制了其在视网膜血管分割中的应用。近年来,状态空间模型(SSMs)因其在处理长距离信息方面的高效性以及相对较低的计算复杂度而受到关注。特别是结构化的 SSMs,如 S4 模型,能够在保持线性时间复杂度的同时实现对长距离依赖关系的高效建模。Mamba 模型的发布为这一领域带来了新的突破,其内置的基于 SSM 的 VSS 模块能够在保持线性计算复杂度的同时高效提取长距离依赖关系,这一特性在医学图像分割任务中展现出显著优势。
综上所述,Mamba 模型在处理长距离信息方面具有显著优势,不仅能够通过线性时间复杂度和高效的选态空间层实现高效建模,而且其推理速度也优于 Transformer。尽管已有研究将 CNN 和 Mamba 结合应用于医学领域,如 MEDMAMBA,但这些方法仍然存在一些问题。其中,Mamba 在长距离建模方面的信息不足是一个被广泛批评的缺陷,其特征融合方式也局限于简单的加法,缺乏对特征内容的深入考虑,从而影响了模型的整体性能。
因此,本文提出了一种新的方法,旨在提升视网膜血管分割的效率和准确性,并构建了 CRMA-UNet 网络。CRMA-UNet 是一种 U 型编码解码结构,结合了 CNN 和 Mamba 的优势,以实现对局部和全局特征的全面提取。具体而言,在编码阶段,我们对 Mamba 结构进行了改进,设计了包含残差结构的 ResMamba 模块,并将其与 CNN 结合,构建了并行编码模块。这一设计使得网络能够在不同层次上提取特征,实现了 CNN 和 ResMamba 的互补优势,从而构建了一个强大且灵活的编码器架构。
在特征融合方面,我们提出了 PAFF(Parallel Attention Feature Fusion)模块。该模块通过动态调整 CNN 和 Mamba 特征的权重,实现了对特征的智能融合。这一方式不仅保留了各自的优势信息,还避免了冗余或冲突,从而确保了融合后的特征具有丰富的信息内容和较高的有效性。此外,为了进一步提升模型的性能,我们设计了 Mul-CA(Multi-Cross Attention)模块。该模块通过构建跨层注意力连接,实现了不同特征提取阶段和不同 Mamba 视角之间的信息交互,保留了关键的空域信息,并增强了模型对细节特征的捕捉能力。
在解码阶段,我们对传统的 Attention Gate(AG)机制进行了改进,以确保跳跃连接的合理性。改进后的 AG 模块能够使相关特征得到加强,而无关特征则被抑制,从而提升了分割结果的准确性。通过这些改进,CRMA-UNet 在多个测试数据集上均表现出更高的准确性和更快的处理速度,优于大多数竞争方法。
为了验证 CRMA-UNet 的性能,本文采用了 DRIVE、STARE 和 CHASE 等常用数据集作为实验数据。这些数据集包含不同数量的视网膜图像,涵盖了正常和病态视网膜的多种情况。DRIVE 数据集由 40 张彩色视网膜图像组成,其中 33 张为无糖尿病视网膜病变的图像,其余 7 张为有轻度病变的图像。STARE 数据集则提供了更多的图像样本,能够更好地评估模型的泛化能力。CHASE 数据集则专注于较小范围的视网膜区域,有助于测试模型在细节特征提取方面的表现。
实验结果表明,CRMA-UNet 在所有五个测试数据集上均取得了优异的性能,不仅在分割精度上优于现有方法,而且在处理速度上也表现出色。这一结果验证了我们提出的 CRMA-UNet 在视网膜血管分割任务中的有效性。此外,本文的研究还旨在探索 Mamba 模型在医学图像分割中的潜力,并建立一个新的基准,为未来的研究提供参考。
为了确保研究的透明性和可重复性,本文遵循了严格的伦理规范。作者声明,本研究与人类或动物受试者无直接关联,且所有实验均基于公开数据集进行。我们提供了所使用的数据集链接,以便读者能够验证研究结果。此外,本文的研究还强调了对数据集的合理使用和引用,以确保研究的科学性和规范性。
综上所述,本文的主要贡献在于:首先,我们设计了 CRMA-UNet 模型,结合了 CNN 和 Mamba 的优势,实现了对局部和全局特征的全面提取;其次,我们提出了 PAFF 模块,通过动态调整特征权重实现了对特征的智能融合;再次,我们设计了 Mul-CA 模块,通过跨层注意力连接实现了不同特征提取阶段和不同视角之间的信息交互;最后,我们改进了 AG 模块,以确保跳跃连接的合理性。这些创新设计使得 CRMA-UNet 在视网膜血管分割任务中表现出更高的准确性和效率,为未来的研究提供了新的思路和方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号