显著性引导特征挖掘网络:多尺度遥感图像细粒度场景分类新方法

《IEEE Geoscience and Remote Sensing Letters》:Saliency-Guided Feature Mining Network for Multi-Scale Fine-Grained Scene Classification in Remote Sensing Image Archives

【字体: 时间:2025年12月02日 来源:IEEE Geoscience and Remote Sensing Letters 4.4

编辑推荐:

  本刊推荐:为解决遥感图像细粒度分类中存在的高类内相似性、细微类间差异及空间尺度变化等难题,研究人员开展了基于显著性引导特征挖掘网络(SGFM-Net)的主题研究。该研究通过集成金字塔卷积(PyConv)的多尺度特征提取、显著性引导的特征增强、多层级注意力机制(MHAM)和双线性聚合池化(BPP)等模块,实现了端到端的训练,在FGSC-23、Aircraft-16和FGSCR-42三个基准数据集上取得了超越现有方法的分类精度,为遥感图像解译提供了新思路。

  
在遥感图像解译领域,细粒度场景分类一直是个令人头疼的挑战。就像要区分不同型号的集装箱船和散货船,这些子类别之间往往只有细微的差别,却可能代表着完全不同的功能用途。传统分类方法在面对高类内相似性和细微类间差异时常常力不从心,更不用说还要应对不同空间尺度带来的变化。
目前的研究虽然已经尝试使用注意力机制和多尺度特征提取等方法来提升分类性能,但大多数方法都需要预计算显著性图或使用预训练分支,这不仅增加了计算负担,还阻碍了真正的端到端训练。就像需要先请专家标注出关键区域再进行识别,这样的过程既费时又不够智能。
针对这些挑战,德维卡·雷维库马尔(Devika Revikumar)等研究人员在《IEEE Geoscience and Remote Sensing Letters》上发表了一项创新研究,提出了一种端到端的显著性引导特征挖掘网络(SGFM-Net)。该网络巧妙地融合了多尺度特征提取、显著性引导和注意力机制,就像给计算机装上了一双“火眼金睛”,能够自动聚焦于图像中最具区分度的区域。
研究人员采用改进的ConvNeXt作为骨干网络,并集成了金字塔卷积(PyConv)来捕获不同尺度的特征信息。这就好比既用广角镜头观察整体结构,又用长焦镜头捕捉细节特征。更为巧妙的是,他们设计了一个并行的显著性分支,能够在线生成显著性图,无需依赖外部标注数据。
通过多层级注意力模块(MHAM)的双路径设计,网络能够同时兼顾高分辨率的细节信息和低分辨率的语义信息。这种设计类似于人类视觉系统,既关注局部特征又不失全局把握。随后,双线性聚合池化(BPP)技术将调制后的特征和注意力特征进行高效融合,捕获特征间的二阶相关性。
在特征映射网络(FMN)模块中,研究人员采用了无偏置的密集层和GELU激活函数,进一步提升了特征的判别能力。整个网络就像一个精密的流水线,每个环节各司其职又相互配合,最终产出高度 discriminative 的特征表示。
关键技术方法包括:基于PyConv增强的ConvNeXt骨干网络进行多尺度特征提取;端到端的显著性引导特征挖掘模块;多层级注意力机制(MHAM)进行特征 refinement;双线性聚合池化(BPP)实现特征融合;特征映射网络(FMN)进行高阶特征关联学习。实验在FGSC-23、Aircraft-16和FGSCR-42三个公开遥感数据集上进行,采用80:20的训练测试划分。
多尺度特征集成提升特征表达能力
通过将金字塔卷积集成到ConvNeXt骨干网络中,研究人员成功实现了多尺度特征的提取。实验结果表明,使用PyConvNeXt的SGFM-Net在三个数据集上的整体准确率(OA)分别达到78.06%、82.09%和92.12%,显著优于传统ConvNeXt backbone。这表明多尺度特征集成能够有效捕获不同粒度下的判别信息。
显著性引导增强判别区域关注度
显著性分支的引入使得网络能够自适应地关注关键区域。如表1所示,完整版的SGFM-Net在FGSC-23数据集上的OA达到83.52%,比不含显著性分支的版本提升了6.72个百分点。这种提升源于显著性图对 discriminative 区域的有效 highlighting,使网络能够更好地聚焦于细微的类间差异。
注意力机制优化特征选择
MHAM模块通过双路径结构实现了多层次特征的协同优化。在Aircraft-16数据集上,完整模型取得了89.26%的OA,注意力机制对特征的选择性增强明显提升了模型对飞机细粒度子类别的区分能力。不同层级的注意力权重分布表明,模型能够自适应地调整对不同语义层次特征的关注程度。
特征融合策略提升分类性能
BPP模块通过双线性池化操作有效捕获了特征间的高阶统计关系。在FGSCR-42数据集上,SGFM-Net取得了96.13%的OA,显著优于基于预计算显著性的方法(89.63%)和SalFB-Net(87.85%)。这表明学习到的特征融合策略比手工设计的融合方式更具优势。
端到端训练提升模型效率
与需要预计算显著性图的方法不同,SGFM-Net的端到端设计大大简化了训练流程。如表3所示,该方法在三个数据集上的综合性能均优于需要外部显著性先验的方法,证明了端到端训练在计算效率和性能上的双重优势。
这项研究的创新之处在于将显著性检测、多尺度特征提取和注意力机制有机地整合在一个统一的框架内。与需要预计算显著性图的方法相比,SGFM-Net能够在线学习任务相关的显著性信息,避免了外部数据引入的 domain gap 问题。与Swin Transformer等纯Transformer架构相比,该模型在保持高性能的同时,展现出了更好的计算效率。
研究人员在三个具有挑战性的细粒度遥感数据集上进行了全面验证,结果表明SGFM-Net在OA、mIoU、mPA和Precision等多个指标上均达到了领先水平。特别是在FGSCR-42数据集上取得的96.13%的OA,彰显了该方法在复杂场景下的强大泛化能力。
这项研究的意义不仅在于提出了一个新的细粒度分类框架,更重要的是展示了端到端学习在遥感图像解译中的巨大潜力。通过消除对预计算资源的依赖,SGFM-Net为实际应用场景提供了更为实用的解决方案。未来,研究人员计划进一步探索CNN-Transformer混合架构,以期在保持效率的同时进一步提升模型性能。
总的来说,这项研究为遥感图像细粒度分类提供了一种新颖而有效的解决方案,其创新性的架构设计和出色的实验结果为后续研究奠定了重要基础。随着遥感技术的快速发展和应用需求的不断增长,这类端到端的智能解译方法将在资源调查、环境监测、国防安全等领域发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号