MCFD-Former:一种高效轻量级的特征提取网络,适用于样本量有限的高光谱图像分类任务

《Journal of Information and Intelligence》:MCFD-Former: An Efficient Lightweight Feature-extraction Network for Hyperspectral Image Classification with Limited Samples

【字体: 时间:2025年12月17日 来源:Journal of Information and Intelligence

编辑推荐:

  高光谱图像分类中,现有方法存在局部特征提取不足、忽略频域信息、依赖多样本等问题。本文提出轻量级特征提取网络MCFD-Former,通过多尺度卷积傅里叶(MSCF)模块整合空间频域与频域特征,并利用双分支Transformer(DMTE)自适应建模短长程依赖。实验表明,MCFD-Former在IP、PU、SA、BS四个数据集上均达到最优分类精度,参数量仅为MHCFormer的1/3,且在10%样本量下仍显著优于其他Transformer/CNN模型。

  
高光谱图像分类(HSIC)作为遥感领域的核心任务,其技术难点在于如何有效融合空间、光谱及频率维度的多尺度特征。近年来,基于深度学习的模型在HSIC中取得显著进展,但现有方法仍存在两大痛点:一是CNN架构对局部特征的过度依赖,导致全局信息建模不足;二是Transformer虽能捕捉长程依赖,但计算复杂度高,且在样本稀缺场景下泛化能力受限。针对上述问题,研究者提出了一种结合多尺度卷积傅里叶模块与双分支Transformer编码器的轻量化框架MCFD-Former。

### 技术突破与创新点
1. **多尺度卷积傅里叶模块(MSCF)**
该模块通过空间-谱域与频率域的双重特征提取机制,解决了传统方法对局部特征的过度聚焦问题。其核心在于:
- **多尺度卷积(MSConv)**:采用不同尺寸的3D卷积核并行处理输入数据,同步捕获像素级、波段级及全局特征。例如,3×3×3、5×5×5和7×7×7的卷积核组合,分别对应局部细节、中等尺度纹理和全局结构。
- **轻量级快速傅里叶卷积(MLFFC)**:通过深度可分离卷积与傅里叶变换的协同优化,在保留光谱连续性的同时,将计算复杂度降低约40%。例如,采用1×1×1的深度可分离卷积提取高频分量,再通过FFT转换为频域特征,最终通过逆FFT还原空间-谱域特征,形成频域增强的交叉验证机制。

2. **双分支Transformer编码器(DMTE)**
该模块借鉴视网膜视觉机制,设计自适应注意力机制:
- **短程依赖分支(DMSA-Local)**:通过多尺度稀疏自注意力(MS-Sparse Attention),以3×3、5×5、7×7的滑动窗口分别建模相邻像素的局部交互。例如,在15×15的窗口内,动态筛选对当前像素贡献度超过阈值的特征,减少冗余计算。
- **长程依赖分支(DMSA-Global)**:采用金字塔池化策略,将特征图逐级下采样至1/4、1/2和全分辨率,分别建模不同粒度的全局关联。通过加权融合三阶段特征,实现跨尺度的信息整合。

3. **轻量化设计策略**
全模型参数量控制在0.13-0.40M,较现有Transformer模型减少30%-50%。具体优化包括:
- **深度可分离卷积**:在频域处理阶段,将标准卷积替换为深度可分离结构,减少计算量约35%。
- **稀疏注意力机制**:通过动态稀疏采样,使每个像素仅需关联窗口内5%-15%的邻居特征,降低参数需求的同时保持精度。
- **分类头优化**:采用双线性感知机(Dual-Bilinear Perceptron)替代全连接层,减少参数量约20%。

### 技术验证与性能优势
在四个公开数据集(IP、PU、SA、BS)上的对比实验表明,MCFD-Former在以下维度显著优于现有方法:
1. **分类精度**:平均准确率(OA)达85.84%-99.16%,Kappa系数提升8%-20%。例如,在IP数据集上,OA为85.84%,较次优的MHCFormer提升2.42%;在BS数据集上,OA达99.16%,较最优Transformer模型LWSST提升1.55%。
2. **少样本鲁棒性**:当训练样本量降至原始数据的1%(约10样本/类),MCFD-Former仍保持:
- IP数据集:OA 79.79% vs. 对比组均值72.35%
- PU数据集:OA 90.4% vs. 对比组均值85.22%
- SA数据集:OA 97.37% vs. 对比组均值93.86%
- BS数据集:OA 99.16% vs. 对比组均值96.33%
3. **计算效率**:训练速度较CTMixer(Zhang et al., 2022)快25%-40%,推理速度提升30%-50%。以BS数据集为例,训练耗时9.03秒,较HybridSN(Roy et al., 2019)的38.01秒减少76.2%。

### 方法论深度解析
**数据预处理阶段**:通过主成分分析(PCA)降维(IP数据集保留15个波段)与形态学操作(SLIC超像素分割+开闭运算)的协同处理,使噪声点减少62%-78%。例如,在IP数据集上,形态学后处理使边缘模糊度降低41%。

**特征提取阶段**:
1. **空间-谱域联合建模**:通过MSConv模块生成的3组特征(局部细节、中等纹理、全局结构),经MLFFC模块的频域增强后,形成包含频率域频谱连续性的5级特征金字塔(1×1、2×2、3×3、4×4、5×5)。
2. **动态稀疏采样**:在DMSA模块中,采用滑动窗口动态选择注意力权重。例如,在15×15窗口内,每个位置仅需计算约120个有效邻域的注意力得分,较全连接计算量减少83%。

**分类决策阶段**:
- **双线性感知机**:通过两次线性变换(分别处理空间与频域特征),将512维特征向量压缩至64维,同时保留90%以上的分类判别信息。
- **渐进式聚合**:在DMTE模块中,先通过可变形卷积提取高频特征,再经Transformer编码器聚合低频全局信息,最终通过可学习归一化层实现像素级分类。

### 应用场景与产业价值
1. **精准农业**:在IP数据集( Soybeans-mintill类别)中,MCFD-Former将OA提升至100%,可精准识别农作物与杂草(如大豆苗与普通大豆的区分)。
2. **环境监测**:在BS数据集(湿地与森林区分)中,模型将Kappa系数提升至99.09%,误分类率降低至0.28%。
3. **工业检测**:通过超像素分割与形态学优化,模型在PU数据集(Bitumen与Sheets类别)中实现98.95%的边界吻合度,满足生产线缺陷检测的亚像素精度需求。

### 技术演进路径
现有研究多采用单一架构(如CNN或Transformer),而MCFD-Former通过模块化设计实现架构融合:
- **CNN-Transformer混合架构**:在HybridSN(Roy et al., 2019)基础上,引入频域特征增强模块,使特征维度从1024扩展至2048,同时参数量减少40%。
- **轻量化Transformer改进**:相较于MASSFormer(Sun et al., 2024)的0.18M参数,MCFD-Former通过深度可分离卷积将参数量降至0.13M,同时保持相同的OA水平(97.37% vs. 96.95%)。

### 局限与改进方向
当前方法在以下场景仍需优化:
1. **极低样本量**(<5样本/类):需引入元学习机制提升泛化能力。
2. **高动态范围数据**:需改进频域处理模块以适应更广的反射率范围。
3. **实时性要求场景**:通过知识蒸馏可将推理速度提升至1ms/pixel,但仍需进一步优化计算图。

### 总结
MCFD-Former通过三个创新维度构建技术壁垒:
1. **特征空间融合**:空间-谱域与频率域的协同优化,使特征维度从传统方法的1024扩展至2048,同时参数量减少35%。
2. **动态注意力机制**:结合稀疏采样与金字塔池化,在保持模型轻量的前提下,使长程依赖建模能力提升27%。
3. **渐进式特征压缩**:通过双线性感知机实现从2048维到64维的渐进压缩,同时保留98%以上的分类判别信息。

该技术路线为高光谱图像分类研究提供了新的范式,特别是在样本稀缺场景下的模型泛化能力,已达到当前最优水平(参数量最少的MCFD-Former较次优模型参数量减少60%,OA提升2.4%-4.3%)。未来可结合联邦学习框架,进一步拓展其在分布式边缘计算场景的应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号