基于滑动窗口机制的非局部特征增强遥感图像超分辨率高效网络SwinCTC
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:SwinCTC: Efficient network for super-resolution reconstruction of remote sensing images based on non-local feature enhancement by sliding window mechanism
【字体:
大
中
小
】
时间:2025年12月11日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
本文针对Transformer在遥感图像超分辨率重建中计算复杂度高的问题,提出了一种基于滑动窗口机制的高效网络SwinCTC。该模型通过组卷积替代传统窗口自注意力,结合残差通道增强注意力(RCEA)和空间增强注意力(RSEA)模块,显著降低了39.4%的参数量和42.4%的计算量,在NWPU-RESISC45和NWPU-VHR数据集上保持了优异的PSNR和SSIM指标,平均推理速度达22.86毫秒,为资源受限环境下的遥感图像处理提供了高效解决方案。
随着遥感技术的飞速发展,高分辨率遥感图像在环境监测、城市规划、灾害评估等领域的应用日益广泛。然而,由于成像设备限制和传输条件约束,实际获取的遥感图像往往分辨率较低,难以满足精细化应用需求。传统插值法和重建型超分辨率方法在细节恢复和计算效率方面存在明显不足,而基于深度学习的卷积神经网络(CNN)方法又难以有效捕捉遥感图像中复杂的全局上下文信息。近年来,Transformer模型凭借其强大的长程依赖建模能力在计算机视觉领域大放异彩,特别是采用窗口注意力机制(WMSA)的Swin Transformer,通过将图像划分为非重叠窗口计算自注意力,显著降低了计算复杂度。但面对大尺寸遥感图像处理时,即使是最先进的SwinIR模型也面临着计算资源消耗大、推理速度慢的严峻挑战,严重制约了其在实时应用场景中的部署。
为解决这一瓶颈问题,河南科技大学王志凯团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了创新性研究成果。研究人员设计了一种名为SwinCTC的新型高效网络架构,该模型在保持滑动窗口机制优势的同时,用组卷积操作替代了传统的窗口/滑动窗口自注意力计算,并结合专门设计的注意力增强模块,实现了计算效率与重建质量的完美平衡。
研究团队采用了几项关键技术方法:首先构建了基于滑动窗口机制的组卷积模块(W-GCONV)替代自注意力计算,显著降低计算复杂度;其次设计了残差通道增强注意力(RCEA)模块,通过动态优化通道权重提升特征提取效率;同时引入残差空间增强注意力(RSEA)模块,聚焦窗口内关键空间区域;还开发了基于卷积的前馈网络(ConvFFN)增强高频信息捕获能力。实验在NWPU VHR-10、NWPU RESISC45和EuroSAT三个遥感数据集上进行,涵盖多种退化场景和放大倍数(×2、×4)。
网络架构设计方面,SwinCTC包含浅层特征提取、深层特征提取和图像重建三个核心模块。浅层特征通过3×3卷积提取,深层特征则通过多个残差Swin通道细化卷积块(RSCTCB)处理。其中创新的Swin通道细化卷积层(SwinCTCL)采用窗口分割策略,将输入特征图划分为M×M的非重叠局部窗口,在每个窗口内独立进行特征提取。
残差通道增强注意力模块通过全局平均池化生成通道描述符,利用全连接层降维后,通过残差连接优化通道权重。具体实现中,先对输入特征图进行高度和宽度方向的平均池化,生成1×1×C维的通道描述符,再通过两个全连接层(中间包含ReLU激活函数)将通道数压缩至分组数G,最终通过元素级乘法与原始特征图融合。
残差空间增强注意力模块则创新性地采用方向池化策略,分别沿X轴和Y轴进行平均池化操作,捕获不同方向的空间特征。池化后的特征经过拼接、卷积、批归一化和ReLU激活函数处理后,分割为高度和宽度两个维度的特征表示,通过Sigmoid函数扩展为与原始特征图相同通道数的张量,最终实现空间信息的加权融合。
基于卷积的前馈网络在传统FFN的两个线性层之间引入深度可分离卷积分支,包含短路连接的3×3深度卷积层和GELU激活函数,有效扩大模型感受野,增强对图像高频信息的建模能力。
实验结果验证了SwinCTC的卓越性能。在NWPU VHR-10数据集上,SwinCTC在×2放大任务中的PSNR达到31.07 dB,与SwinIR的31.10 dB极为接近,但参数量从11.8M降低至8.2M,计算复杂度从123.9G FLOPs降至59.4G FLOPs。在×4放大任务中,PSNR为27.22 dB,较SwinIR仅下降0.04 dB,但推理速度从3176.7毫秒大幅提升至22.9毫秒,帧率从0.31 FPS提高至43.74 FPS。
消融实验系统验证了各模块的贡献。单独使用SwinCTC替换自注意力机制后,虽然PSNR略有下降(×2任务中从31.10 dB降至31.01 dB),但参数量和计算量显著降低。依次加入RCEA、RSEA和ConvFFN模块后,PSNR指标逐步提升,最终在参数量仅增加0.7M的情况下,性能接近基线水平。
局部归因图(LAM)可视化分析表明,SwinCTC在保持与SwinIR相近的注意力范围的同时,有效聚焦于图像关键区域。在复杂场景如建筑物轮廓、农田边界等区域,SwinCTC能够准确捕捉结构信息,恢复出清晰的纹理细节。
与主流算法的对比显示,SwinCTC在多项指标上表现优异。在NWPU RESISC45数据集的×4超分辨率任务中,PSNR达到27.21 dB,显著优于SRCNN(26.52 dB)、FSRCNN(26.62 dB)等传统方法,与专门针对遥感图像设计的LGCNet(26.68 dB)、DCM(27.04 dB)相比也有明显提升。在更具挑战的大气湍流退化场景中,SwinCTC仍能保持稳定的重建性能,在EuroSAT多光谱数据集上的光谱角映射器(SAM)指标为6.7247°,证明其良好的光谱保真性。
研究还探讨了RSCTCB块数量对性能的影响。实验发现当n=6时,模型在参数量(8.2M)和性能(PSNR 31.07 dB)之间达到最佳平衡,过多或过少的块数都会导致性能下降或参数效率降低。
该研究的创新性主要体现在三个方面:首先,通过组卷积替代自注意力机制,在保持滑动窗口优势的同时大幅降低计算复杂度;其次,通过通道和空间注意力模块增强特征表示能力,解决了卷积操作全局信息捕获不足的局限;最后,引入卷积前馈网络强化高频信息恢复,显著提升细节重建质量。
SwinCTC模型的成功开发为遥感图像超分辨率处理提供了新的技术路径,其高效性使得在计算资源受限的移动终端、无人机等平台上的实时高质量图像重建成为可能。未来研究方向可进一步探索多尺度特征融合、自适应窗口机制等优化策略,推动遥感图像智能处理技术向更高效、更精准的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号