AF2-MSA Net:面向遥感场景分类的注意力融合多尺度架构网络
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:AF2-MSA Net: Attention-Fusion Focused Multi-Scale Architecture Network for Remote Sensing Scene Classification
【字体:
大
中
小
】
时间:2025年12月11日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
本文针对遥感图像场景分类中存在的类内差异大、类间相似性高以及多尺度目标特征差异显著等挑战,提出了一种新颖的注意力融合多尺度架构网络(AF2-MSA Net)。研究人员设计了全局上下文重校准模块(GCRM)和轴对齐特征协调模块(AAFHM),并将其集成到统一框架中,通过全局语义重校准和多尺度判别特征的协同优化,显著提升了场景分类的准确性和鲁棒性。在三个常用数据集上的大量实验表明,AF2-MSA Net在遥感图像场景分类任务中优于一些先进方法,为解决复杂遥感场景理解提供了有效的技术方案,对城市规划和环境监测等领域具有重要意义。
随着遥感技术的飞速发展,卫星和无人机等平台每天产生海量的地表图像数据。这些遥感图像在环境监测、城市规划和精准农业等领域发挥着至关重要的作用。其中,遥感图像场景分类作为遥感图像解译的核心任务,旨在根据图像内容自动分配正确的场景语义标签,成为当前研究的热点。
然而,遥感图像场景分类面临着独特的技术挑战。与自然图像相比,遥感图像通常采用俯视角度拍摄,地表形态多样且空间结构复杂,导致同一类别的场景图像在颜色和形状上存在显著差异(类内多样性),而不同类别的场景却可能具有相似的纹理特征(类间相似性)。例如,桥梁场景可能包含与港口相似的船舶和水体元素,如果模型只关注局部区域,很容易将桥梁误判为港口。此外,遥感图像中通常包含大小不一的目标物体,如图1所示,同一场景中的飞机目标尺寸差异很大,而跑道等关键目标在图像中占据面积较小。这些因素都给准确分类带来了巨大困难。
传统的卷积神经网络(CNN)方法在特征提取方面表现出色,但由于卷积操作的局部感受野限制,难以充分捕捉遥感图像中的长程依赖关系。而基于注意力机制的方法虽然能够提取远程信息,但主要关注单尺度特征,缺乏多尺度学习能力,无法有效处理遥感图像中目标尺寸变化大的问题。
为了克服这些局限性,石翠萍等人提出了一种创新的注意力融合多尺度架构网络(AF2-MSA Net),该研究成果发表在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上。这项研究通过整合全局语义重校准和多尺度特征协调机制,实现了对复杂遥感场景的深度理解。
研究人员采用了几项关键技术方法:首先使用ResNet50作为骨干网络进行多级特征提取;然后设计全局上下文重校准模块(GCRM),通过轴向自适应池化和深度可分离卷积实现全局语义重校准;接着构建轴对齐特征协调模块(AAFHM),在通道和空间双分支上自适应融合多尺度特征;最后采用渐进特征融合(PFF)策略,实现从低分辨率局部细节到高层全局语义的层次化交互优化。实验在AID、NWPU-RESISC45和UC Merced三个公开遥感数据集上进行验证。
AF2-MSA Net的整体框架包含三个核心组件:多级特征提取模块(MFEM)、全局上下文重校准模块(GCRM)和轴对齐特征协调模块(AAFHM)。MFEM负责从遥感场景中提取全局和多级特征,GCRM旨在增强输入特征并突出关键区域信息,AAFHM则用于融合骨干网络相邻层的特征以构建判别性特征表示。
研究采用ResNet50作为特征提取骨干网络,该网络包含四个阶段,每个阶段由多个残差块组成。不同阶段的残差块能够捕获多级卷积特征:浅层残差块提取的特征更接近输入,包含更多像素级信息(如颜色、纹理和边缘细节);深层残差块提取的特征更接近输出,包含更丰富的语义信息。通过整合不同层次的特征,可以有效提升复杂遥感场景的分类准确性。
GCRM模块的创新之处在于其全局上下文重校准机制,与传统局部注意力机制不同,它能够动态调整多级特征图并对特征进行全面重校准,以处理遥感图像中的复杂空间结构。
GCRM包含四个主要部分:特征分组、轴向自适应池化阶段、重校准特征生成阶段和跨空间权重重校准阶段。该模块通过沿通道维度将特征图分成G组,分别沿高度和宽度方向进行自适应平均池化,生成行上下文提示和列上下文提示,然后通过深度可分离卷积和矩阵乘法操作实现跨空间权重重校准。
与层归一化(Layer Normalization)和实例归一化(Instance Normalization)相比,GCRM采用组归一化(Group Normalization,GN),因其独立于批次大小,在小批量设置下能提供更稳定的特征分布。
AAFHM模块接收来自改进MFEM的相邻两阶段特征输出并进行深度融合。该模块创新性地将自适应加权机制与注意力机制相结合,克服了传统多尺度特征融合方法的局限性。
AAFHM在通道分支和空间分支上并行工作,通过对两阶段特征进行全局平均池化和全局最大池化,在通道维度上串联融合,然后通过一维卷积和softmax激活函数生成通道注意力权重。空间维度的权重确定方式与通道维度并行,最终通过整合两阶段通道权重和空间权重,实现特征的智能协调融合。
研究提出了渐进特征融合(PFF)连接策略,确保不同层次的判别信息能够在网络中逐层传递和互补。具体而言,将第i阶段的输出特征通过下采样操作转换以匹配第i+1阶段的空间分辨率,然后将下采样后的原生特征输入AAFHM模块,通过通道和空间分支自适应加权和精细重校准,输出融合后的多尺度判别表示。
在AID数据集上,当训练比例为20%和50%时,AF2-MSA Net的总体准确率(OA)分别达到95.86%和97.52%,均优于对比方法。混淆矩阵分析显示,该方法能够准确分类30个类别,仅"度假村"、"学校"和"广场"三个类别在20%训练比例下准确率低于90%。
在NWPU数据集上,当训练比例为10%和20%时,AF2-MSA Net的OA分别达到92.80%和94.78%。混淆矩阵表明,45个类别中有30个类别的精度达到95%以上,但"教堂"和"宫殿"因建筑结构相似存在相互误分类的情况。
在UCM数据集上,当训练比例为80%时,AF2-MSA Net的OA达到99.92%。五折交叉验证结果显示平均OA为99.72%±0.16%,证明了模型在不同数据划分策略下的强泛化能力和稳定性。
参数和计算量分析表明,AF2-MSA Net仅带来边际计算开销增加,与基线相比,参数和FLOPs(浮点运算数)增长相对适度,在准确性和计算成本之间实现了良好平衡。
组归一化中分组数G的消融实验显示,当G=32时获得最高OA为95.86%,表明使用适中的组数能提供更有效的归一化粒度。
尺度消融实验证明,结合所有尺度(S1+S2+S3+S4)的模型性能最佳,OA达到95.86%,表明渐进特征融合策略能有效利用不同阶段的层次特征。
组件消融实验验证了各模块的互补作用:PFF促进有效的多级特征融合,GCRM增强全局上下文重校准,AAFHM以自适应方式进一步优化融合特征。这些模块的协同作用显著提升了模型对遥感场景分类的判别能力。
通过Grad-CAM进行类激活映射可视化,对比微调ResNet50和AF2-MSA Net的关注区域,发现AF2-MSA Net能更准确地聚焦于关键语义区域,表现出更好的多尺度理解能力。
AF2-MSA Net通过全局上下文重校准模块(GCRM)和轴对齐特征协调模块(AAFHM)的有机整合,实现了对遥感图像中复杂多尺度和上下文信息的全面捕捉。GCRM通过自适应轴向池化和深度卷积有效重校准多层特征中的全局语义信息,增强模型对关键上下文区域的关注能力;AAFHM结合通道和空间双分支注意力机制,自适应融合相邻阶段的多尺度特征,实现不同尺度信息的深度协调与互补。
与传统方法相比,AF2-MSA Net不仅有效捕捉全局语义信息,还充分协调通道和空间维度的注意力机制,显著提升了模型对关键特征的敏感度和判别能力。在多个公开遥感数据集上的实验证明,该方法在不同训练比例下均能取得优异的分类精度,展现出出色的泛化能力和鲁棒性。
该研究的创新性在于理论上了整合多尺度注意力机制和特征协调策略,在实践中表现出卓越性能,具有较强的应用潜力和推广价值,为遥感图像场景分类领域提供了有力的技术支持和创新思路。未来可考虑融合SAR、光谱或激光雷达等多模态数据,进一步挖掘更丰富的特征信息,提升分类精度和应用范围。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号