WFDENet:基于小波的频率分解与增强网络,用于糖尿病视网膜病变病变的分割

《Pattern Recognition》:WFDENet: Wavelet-based frequency decomposition and enhancement network for diabetic retinopathy lesion segmentation

【字体: 时间:2025年10月08日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出WFDENet,通过小波变换分解多级编码器特征的低频与高频分量,分别采用低频增强模块(LFB)和高频增强模块(HFB)优化。HFB引入复杂卷积频率注意力机制(CCFAM)抑制高频噪声,同时通过多尺度特征融合提升信息丰富度。实验表明,WFDENet在IDRiD和DDR数据集上显著优于现有方法,尤其在微小病灶分割和边界界定方面表现优异。

  糖尿病视网膜病变(Diabetic Retinopathy, DR)是糖尿病患者中最常见的眼部并发症之一,也是导致成年人视力受损和失明的主要原因之一。因此,定期进行DR筛查被视为初级糖尿病护理的重要组成部分。在DR筛查过程中,眼科医生通常通过识别彩色视网膜图像中的病变区域来进行诊断。然而,在医疗资源有限的地区,每位眼科医生需要筛查大量的视网膜图像,这导致了巨大的工作负担。因此,自动化的DR病变分割(DRLS)对于辅助诊断和减轻眼科医生的工作压力至关重要。

为了实现高精度的DRLS,模型需要同时捕捉精确的语义信息和详细的图像特征。这是因为病变之间存在高度相似性,例如出血和微动脉瘤(均为红色病变),以及病变与背景之间也存在相似性,如微动脉瘤与血管(均为红色物体)。这种相似性使得精确的语义信息对于区分病变至关重要。此外,准确的详细信息对于分割微小病变和界定边界也非常重要。为了获得增强的语义和详细信息,一种流行的方法是设计复杂的多级特征融合技术。这些方法受到多级编码器特征中蕴含丰富语义和细节这一事实的启发。

除了这些方法,一些研究人员注意到多级特征的质量也会影响最终的语义和详细表示。他们提出通过两种方式来获取高质量的多级特征:1)M2MRF和HACDR-Net旨在开发任务特定的编码器,以获取适应DRLS任务的多级特征;2)WSRFNet则通过反馈机制在空间域中优化由简单编码器提取的多级特征。尽管上述方法在整体上增强了特征表示,但它们并未在语义和细节的增强上采取明确的策略。这种做法可能导致某一类信息得到增强,而另一类则被削弱,从而降低整体增强效果。

为了解决这一问题,本文提出了一种基于小波变换的频率分解与增强网络(Wavelet-based Frequency Decomposition and Enhancement Network, WFDENet)。该网络通过增强多级编码器特征中的低频和高频成分,同时提升内在语义和细节信息,以实现高精度的DRLS。如图2(d)所示,为了获取语义和详细信息,我们首先应用离散小波变换(Discrete Wavelet Transform, DWT)将每个层次的编码器特征分解为低频和高频成分。然后,我们分别设计低频增强模块(Low-Frequency Booster, LFB)和高频增强模块(High-Frequency Booster, HFB)来优化这些成分。特别地,需要注意的是,DWT在之前的DRLS研究(如WSRFNet)和一般的语义分割方法(如Wave-Vit)中也被使用。但它们的目标是进行无损下采样,而我们的WFDENet则是为了频率分解。

高频特征包含了丰富的病变细节,但也伴随着更多的背景噪声。为了突出关键信息并减少噪声干扰,一种有效的方法是采用注意力机制,增强任务相关的特征,同时抑制不相关的特征。例如,CBAM是一种经典的注意力模块,它使用卷积操作来获取空间和通道注意力,从而强调关键特征。然而,CBAM的局部感受野使其难以捕捉分割任务中重要的长距离关系。为了解决这一问题,视觉变换模型(ViT)采用自注意力机制来获取全局上下文。然而,自注意力主要集中在低频成分,这可能导致高频成分中的细节被破坏。最近,研究人员注意到傅里叶变换也可以捕捉全局信息,因此在傅里叶空间中应用注意力机制,以突出重要的频谱,而不仅仅局限于低频成分。受这一方法的成功启发,我们设计了复杂卷积频率注意力模块(Complex Convolutional Frequency Attention Module, CCFAM),它利用复杂卷积在傅里叶空间中生成动态的复杂通道和空间注意力,从而增强关键特征并减少高频成分中的噪声。与[14]和[15]不同,我们的注意力图不是静态的,而是根据输入动态生成,这使得模型能够更好地适应多样化的输入。

此外,多尺度信息的获取对于准确的DRLS也至关重要。因为病变在大小上存在显著差异,所以多尺度信息能够提供更全面的特征描述。考虑到这一点,我们在LFB和HFB中分别通过聚合多尺度的低频和高频特征来增强这些成分。同时,我们对LFB和HFB的最低级输出施加辅助监督,以促进更好的特征融合。之后,我们利用逆离散小波变换(Inverse Discrete Wavelet Transform, IDWT)将优化后的低频和高频成分转换为具有增强语义和细节的特征。此外,我们注意到相邻层编码器特征的组合也可以提升语义和细节信息,因此在分割解码器(Segmentation Decoder, SD)中进行这种融合,以进一步优化分割结果。

本文提出的WFDENet在结构设计上具有以下几个关键特点。首先,通过DWT对多级编码器特征进行频率分解,分别提取低频和高频成分。其次,分别设计LFB和HFB来增强这些成分,其中HFB中采用了CCFAM模块,利用复杂卷积在傅里叶空间中生成动态的注意力图,以提升关键特征并减少噪声。LFB则通过多尺度特征融合来增强低频成分,同时对最低级输出施加辅助监督。最后,通过IDWT将优化后的特征重新组合,以获得具有增强语义和细节的最终特征表示。同时,在分割解码器中引入相邻层特征的融合,以进一步优化分割结果。

为了验证WFDENet的有效性,我们在两个广泛使用的DRLS数据集上进行了全面的实验,包括印度糖尿病视网膜病变图像数据集(IDRiD)和DDR数据集。这两个数据集都提供了像素级别的注释,涵盖了四种类型的DR病变,即硬性渗出(EX)、出血(HE)、软性渗出(SE)和微动脉瘤(MA)。实验结果表明,WFDENet在准确性和鲁棒性方面均优于现有的最先进方法。此外,我们还通过可视化分析展示了WFDENet在不同病变类型上的分割效果,进一步验证了其有效性。

WFDENet的主要贡献可以总结为以下几点。首先,我们提出了一种基于小波变换的频率分解与增强网络,通过低频和高频增强模块分别提升多级编码器特征中的低频和高频成分,从而同时增强语义和细节信息,以实现高精度的DRLS。其次,在高频增强模块中,我们设计了复杂卷积频率注意力模块,利用复杂卷积在傅里叶空间中生成动态的注意力图,以增强关键特征并减少噪声。同时,我们通过多尺度特征融合来增强低频和高频成分。第三,我们在IDRiD和DDR数据集上的全面实验验证了WFDENet的优越性,证明了其在准确性和鲁棒性方面的优势。

WFDENet的结构设计不仅考虑了多级特征的频率分解,还结合了注意力机制和多尺度特征融合,以实现更全面的特征增强。这种设计使得模型能够在保持语义信息的同时,有效捕捉病变的细节。此外,通过引入相邻层特征的融合,WFDENet能够进一步优化分割结果,提高分割的准确性。实验结果表明,WFDENet在分割性能上显著优于现有的最先进方法,这得益于其在频率分解和增强方面的创新设计。

为了进一步验证WFDENet的性能,我们对模型进行了详细的消融实验。通过移除不同的模块,我们分析了每个模块对分割结果的影响。实验结果表明,LFB和HFB的结合是提高分割性能的关键因素,而CCFAM模块在HFB中的应用则显著提升了高频成分中的关键特征。此外,多尺度特征融合的引入也对分割结果产生了积极影响。这些实验结果进一步证明了WFDENet在DRLS任务中的有效性。

在实际应用中,WFDENet具有广泛的应用前景。由于其能够同时增强语义和细节信息,因此在处理复杂病变时表现出更强的适应性。此外,WFDENet的结构设计使其能够在不同的输入条件下保持良好的性能,这使得它适用于多样化的DR筛查场景。同时,由于WFDENet在频率分解和增强方面的创新,它能够有效减少噪声干扰,提高分割的准确性。

综上所述,本文提出的WFDENet在DRLS任务中具有显著的优势。它不仅通过频率分解和增强模块提升了多级编码器特征中的语义和细节信息,还结合了注意力机制和多尺度特征融合,以实现更全面的特征增强。实验结果表明,WFDENet在多个数据集上的分割性能均优于现有的最先进方法,这充分证明了其在DRLS任务中的有效性。此外,WFDENet的结构设计使其具有较强的适应性和鲁棒性,适用于多样化的DR筛查场景。因此,WFDENet为自动化DR病变分割提供了一种新的解决方案,具有重要的研究价值和应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号