双变换器特征增强网络:应对红外弱小目标检测中的低信噪比与复杂背景挑战

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:Dual-Transformer Feature Enhancement for Infrared Small-Dim Target Detection

【字体: 时间:2025年12月15日 来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐:

  本文针对红外弱小目标检测中存在的目标信号弱、对比度低、背景干扰复杂等难题,提出了一种新颖的双变换器特征增强网络(DTFE-Net)。该网络通过双变换器频率选择器(DTFS)整合小波变换(WT)与快速傅里叶变换(FFT),利用频率自适应选择机制增强目标特征;空间特征选择器(SFS)从局部与全局视角提取有效空间特征;空间增强频率表示(SAFR)实现跨域特征精细融合。在NUAA-SIRST、IRSTD-1K和NUDT-SIRST数据集上的实验表明,DTFE-Net在IoU、nIoU、Pd和Fa等指标上均超越现有先进方法,显著提升了复杂场景下的检测精度与鲁棒性。

  
在远程感知和 surveillance(监视)领域,红外弱小目标检测(ISDTD)是一项至关重要的技术,广泛应用于灾害监测、环境感知和目标跟踪等场景。与可见光方法相比,红外成像依靠目标的热辐射进行探测,能够在低光照和恶劣天气条件下保持稳定性能,尤其适用于夜间和全天候作战。然而,ISDTD技术在实际应用中仍面临三大核心挑战:首先,由于辐射随距离快速衰减,远距离目标往往信号微弱、缺乏语义特征(如纹理和形状),导致低强度目标难以被有效捕捉;其次,复杂背景(如海面、云层和海岸地形)会进一步降低热对比度,使暗淡目标在视觉上更加模糊;最后,有限的 spatial resolution(空间分辨率)以及传感器噪声和亮像素伪影的干扰,显著增加了误检率。
传统方法主要依赖 thermal contrast(热对比度)、局部特征和稀疏性等先验知识,可分为局部检测(LD)和全局检测(GD)两类算法。虽然这些方法在一定条件下有效,但其对低层 cues(线索)的依赖限制了其对高层语义的理解和目标的精确定位。随着大规模红外数据集的出现,基于深度学习的方法通过提取语义特征和建模复杂背景-目标关系,显著推动了检测性能的提升。然而,现有方法仍存在明显不足:多数方法仅关注空间域特征增强或多尺度特征集成,忽视了频域信息在捕捉目标分布差异方面的 discriminative(判别性)价值;此外,频域特征常被作为孤立辅助模块引入,导致特征表示碎片化,难以实现空间与频率信息的协同互动;在复杂背景抑制方面,局部空间特征易受干扰,而全局建模又可能引入冗余上下文或抑制 salient(显著)目标 cues。
为应对上述挑战,Xiamen University(厦门大学)的Guoliang Hu、Linyu Fan等研究人员在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了题为“Dual-Transformer Feature Enhancement for Infrared Small-Dim Target Detection”的研究论文,提出了一种创新的双变换器特征增强网络(DTFE-Net)。该网络通过三个核心模块——双变换器频率选择器(DTFS)、空间特征选择器(SFS)和空间增强频率表示(SAFR)——实现了空间域与频率域表征的无缝集成。DTFS利用小波变换(WT)和快速傅里叶变换(FFT)的双变换机制,结合频率自适应选择器,增强 informative frequency components(信息性频率成分),在动态条件下提升纹理保真度;SFS从局部和全局视角提取有效空间特征;SAFR则通过细粒度融合优化 spatial-frequency representation(空间-频率表示),提升目标可分辨性。
研究人员为开展此项研究,主要采用了以下几项关键技术方法:首先,构建了双分支频率分解架构,通过离散小波变换(DWT)将特征分解为低频(LL)和高频(LH、HL、HH)子带,并利用 channel-wise Mamba(通道维Mamba)模块对低频成分进行长程上下文建模;其次,引入快速傅里叶变换(FFT)对WT特征进行频域增强,通过振幅和相位分量的自适应加权突出目标相关频率;第三,设计了频率特征选择(FFS)模块,通过可学习的低通与高通滤波器对频域特征进行动态筛选与融合;第四,采用空间特征选择器(SFS)实现局部与全局空间特征的解耦与强化;最后,通过空间增强频率表示(SAFR)实现空间与频率特征的语义对齐与跨域融合。实验在NUAA-SIRST、IRSTD-1K和NUDT-SIRST三个公开数据集上进行,采用IoU、nIoU、Pd和Fa等指标进行定量评估,并与15种现有先进方法进行了全面对比。
网络结构
DTFE-Net的整体架构如图2所示,包含DTFS、SFS和SAFR三个核心模块。DTFS通过双变换器架构增强特征表示,SFS在空间域扩展 receptive field(感受野),整合局部结构与全局上下文,SAFR则通过将SFS输出与DTFS特征对齐,实现联合语义建模。这三个模块共同协作,增强目标信号、改善暗淡目标对比度并抑制背景干扰。
双变换器频率选择器
DTFS是频域通路,用于捕获多尺度、频率感知的特征。给定原始红外图像Iin∈Rh×w×3,首先通过3×3卷积进行特征嵌入,得到F0∈Rh×w×C。随后,对每一层特征Fi进行离散小波变换,得到四个方向频率子带:FiLL、FiLH、FiHL和FiHH。其中,FiLL捕获低频结构(如背景和轮廓特征),而高频成分则通过3×3深度卷积进行增强。低频成分通过 channel-wise Mamba(CWM)模块进行增强,该模块基于状态空间模型(SSM)对特征演化进行建模,提升语义表示。增强后的低频和高频成分通过逆小波变换(IWT)重组为Fiwave。为进一步补充全局频率语义,对Fiwave进行FFT,得到振幅Ai和相位Pi,并通过可学习卷积滤波器对其进行增强。最终,增强后的频谱经逆FFT(IFFT)转换回空间域,并结合残差注意力掩码Mi得到频域增强特征Fifft
FFS模块对Fifft进行最终频率成分的选择与过滤。该模块将特征图沿通道轴划分为b个子集,每个子集通过动态滤波操作进行处理:首先通过全局平均池化(GAP)和1×1卷积生成低通滤波器Klow(k),高通滤波器则计算为Khigh(k)(k)-Klow(k)。滤波后的特征通过注意力机制进行融合,最终所有分支结果拼接形成DTFS的输出Fout1。DTFS通过WT和FFT的互补优势,结合FFS的通道注意力机制,实现了对目标特征的精准增强与背景干扰的有效抑制。
空间特征选择器
SFS采用双分支设计,将输入Iin沿通道维度划分为全局描述符Ig和局部描述符Il。全局分支通过GAP获取空间压缩的低频表示Iglow,并通过减法得到高频响应Ighigh;随后,通过通道级可学习缩放向量μglow和μghigh对高低频信号进行自适应调制,得到聚合表示Ig′。局部分支将Il划分为四个非重叠空间窗口,在每个窗口内类似地计算低频和高频成分,并通过可学习权重进行调制,得到细化后的窗口级响应Il′。最终,所有局部响应与全局响应拼接形成SFS的输出Iout。SFS通过解耦和细化多尺度频率感知空间特征,有效提升了小目标的 discriminability(可分辨性)。
空间增强频率表示
SAFR通过可学习的回归模块实现空间与频率特征的融合。首先,将SFS的输出Eq通过两个独立的3×3卷积转换为调制参数θ和α;随后,通过公式yo=DTFS(Ii)·θ+α实现特征对齐与融合。SAFR作为跨域桥梁,确保了语义一致性和结构连贯性,抑制了背景冗余并增强了目标显著性。
损失函数
DTFE-Net采用二元交叉熵损失(Lbce)和Dice损失(Ldice)的组合作为总体损失函数:Ltotal=λLbce+(1-λ)Ldice。通过网格搜索实验确定最优权重λ=0.5,在IRSTD-1K数据集上取得了最佳性能。
实验验证
在NUAA-SIRST、IRSTD-1K和NUDT-SIRST三个数据集上的定量结果表明,DTFE-Net在IoU、nIoU、Pd和Fa等指标上均优于现有15种先进方法。例如,在NUAA-SIRST上,DTFE-Net的IoU达到77.93%,nIoU为76.46%,Pd为100%,Fa低至1.55×10-6;在IRSTD-1K上,IoU为70.98%,nIoU为68.42%;在NUDT-SIRST上,IoU达到88.01%。ROC曲线分析进一步证实了DTFE-Net在复杂场景下的优越性能,其曲线始终位于其他方法之上,表明其在保持高检测率的同时有效控制了误检率。
定性结果如图5至图7所示,DTFE-Net在多种复杂背景下均能准确检测目标,并保持清晰的轮廓完整性。传统方法如RLCM和FKRW在背景抑制和目标轮廓保持方面表现较差,而深度学习方法如AGPCNet和DCFR-Net虽能检测目标,但边界模糊且易产生误检。DTFE-Net通过双变换器机制和跨域融合,显著提升了目标的可视性和结构保真度。图8的3D灰度图可视化进一步表明,DTFE-Net生成的目标响应与真实标注(GT)高度吻合,尤其在多目标场景下表现出精确的定位能力。
消融实验(表V和表VI)验证了各模块的贡献。单独使用DTFS(w/ F)相比基线(baseline)在NUAA-SIRST上的IoU从68.78%提升至73.45%;结合SFS(w/ FS)后,IoU进一步提高到75.12%;加入SAFR(w/ FA)后,IoU达到76.28%;最终完整模型(w/ FAS)的IoU达到77.93%。此外,去除WT或FFT任一组件均会导致性能下降,证实了二者的互补性。图11的注意力热力图可视化显示,WT和FFT的集成能够更精确地聚焦目标区域,尤其在多目标场景下表现突出。
结论与讨论
DTFE-Net通过双变换器频率选择器(DTFS)、空间特征选择器(SFS)和空间增强频率表示(SAFR)的协同设计,有效解决了红外弱小目标检测中的低强度信号、弱对比度特征和复杂背景抑制不足三大挑战。DTFS利用WT和FFT的双变换机制,结合频率自适应选择,增强了目标的纹理保真度;SFS通过局部与全局空间特征的选择性提取,提升了目标与背景的分离能力;SAFR则通过跨域特征融合,实现了空间与频率表示的语义对齐。实验结果表明,DTFE-Net在多个数据集上均取得了领先的检测性能,具有较强的鲁棒性和泛化能力。
该研究的创新点在于首次将双变换器机制引入红外小目标检测领域,通过频域与空间域的特征互补与增强,显著提升了弱小目标在复杂场景下的可视性和检测精度。未来工作将聚焦于DTFE-Net的轻量化优化,以实现其在真实场景中的高效、可扩展部署。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号