LiteDenseMoE:面向低对比度遥感图像航空场景识别的可解释轻量级密集连接专家混合网络
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:LiteDenseMoE: An Explainable Lightweight Densely Connected Mixture-of-Experts Network for Aerial Scene Recognition in Low Contrast Remote Sensing Images
【字体:
大
中
小
】
时间:2025年12月17日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
本文针对低对比度遥感图像中航空和沿海区域分类的挑战,提出了一种新颖的轻量级密集连接专家混合网络(LiteDenseMoE)。该模型融合了轻量密集块、通道与空间注意力机制以及定制化的MoE模块,通过Hyperband优化技术自动选择超参数。在三个公开数据集上的实验表明,其以仅0.3百万参数实现了优异性能(MLRSNet: 93.25%, NWPU-RESISC45: 92.56%, EuroSAT: 96.54%),并通过专家分配、t-SNE可视化等方法增强了模型可解释性,为复杂遥感场景分析提供了高效可靠的解决方案。
从高空俯瞰地球,遥感图像为我们提供了理解地理和环境变化的独特视角。这些图像对于土地利用分类、农作物监测、海岸线变化检测等众多社会经济和环境应用至关重要。然而,遥感图像的分析并非易事,它们往往具有高维度、高光谱相似性等特点。许多地物类别共享重叠的视觉特征,例如停车场与裸地、城市住宅区与工业区等难以区分。同时,同一地物类别在不同环境和季节下会表现出巨大的视觉差异(即高类内变异性)。此外,多尺度特征需求以及有限的标记数据进一步增加了分析的难度,使得模型难以学习一致的类别表示。
传统机器学习方法如支持向量机(SVM)、决策树(DT)等依赖手动特征提取,其性能严重受限于特征质量,且难以处理高维数据。虽然深度学习技术,特别是卷积神经网络(CNN),支持自动特征提取并在复杂遥感数据上表现出色,但现有方法仍普遍存在过拟合、计算成本高、泛化能力有限等问题。尤其针对航空和沿海区域分类的研究相对较少,且模型往往缺乏可解释性。
为了解决这些挑战,由Muhammad John Abbas等人组成的研究团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了一项研究,提出了一种名为LiteDenseMoE(轻量级密集专家混合网络)的新颖深度学习模型。该研究旨在实现遥感图像中航空和沿海区域的高效、准确且可解释的分类。
研究人员开展了一项系统的研究,他们设计了LiteDenseMoE模型架构,并在三个公开遥感数据集(MLRSNet, NWPU-RESISC45, 以及一个由EuroSAT等数据集组合而成的沿海区域数据集)上对其进行了全面评估。模型训练采用了70%-30%的数据划分,并利用Hyperband优化技术进行超参数自动选择,而非手动调参。研究不仅关注分类精度,还通过专家分配分析、置信度可视化、t-SNE特征空间可视化以及GradCAM等方法深入解释了模型的决策过程。此外,还进行了详尽的消融实验和与预训练模型及先进模型的对比分析。
为开展研究,作者主要应用了以下关键技术方法:1) 构建了包含轻量密集块(采用深度可分离卷积层以减少参数量)、通道注意力模块和空间注意力模块的特征提取主干网络;2) 设计了定制化的专家混合(MoE)模块,包含两个专家网络和一个路由机制,动态分配特征以利用不同专家的专长;3) 采用Hyperband优化算法自动确定最佳超参数(如学习率、批大小等);4) 引入了辅助分类器以辅助模型初期训练;5) 使用了来自MLRSNet、NWPU-RESISC45和EuroSAT等公开数据集的遥感图像进行评估。
A. Results on MLRSNet dataset
在MLRSNet数据集上,LiteDenseMoE模型取得了93.25%的整体分类准确率。混淆矩阵分析显示,该模型在视觉复杂和细粒度类别上表现优异,例如swimming_pool(F1-score: 0.9941)、shipping_yard(0.9906)和vegetable_greenhouse(0.9759)。视觉特征明显的类别,如airplane、cloud和island,F1-score也均超过0.96。然而,railway station、park和overpass等类别的性能相对较低,这主要是由于它们与邻近类别(如railway)存在相似模式,导致区分困难。模型在稀有或易混淆类别(如snowberg召回率0.9717,tennis_court召回率0.9533)上保持了较高的召回率,显示了其处理类别不平衡和细微差异的能力。
B. Results on NWPU-RESISC45 Dataset
在NWPU-RESISC45数据集上,模型整体准确率达到92.56%,宏平均F1-score为91.88%。模型在视觉差异明显的类别上表现突出,如Forest(F1-score: 0.9746)、Parking Space(0.9515)和Dense Residential(0.9548)。Anchorage、Beach和Farm等类别的F1-score也高于0.93。River(F1-score: 0.8109)和Sparse Residential(0.9104)等类别由于与其他自然或城市类别视觉相似性高,误分类率相对较高。
C. Results on EuroSAT Dataset
在EuroSAT数据集上,模型取得了最高的分类性能,整体准确率为96.54%。Residential(F1-score: 0.9917)、Sea Lake(0.9929)和Forest(0.9885)等类别几乎被完美分类。即使是视觉上较为模糊的类别,如Herbaceous Vegetation(0.9461)和Annual Crop(0.9478),也表现出强大的分类性能。模型在所有类别上都保持了较高的召回率,减少了假阴性的出现,这对于农业监测等实际应用至关重要。
专家分配分析显示,对于EuroSAT数据集,Expert 1更擅长处理Sea-lake、Pasture和Forest等类别,而Expert 2则是大多数其他类别的首选。在NWPU数据集中,Expert 1负责4个类别,Expert 2负责6个类别,其余两个类别对两个专家的偏好各占50%。在MLRSNet数据集上,Expert 2是绝大多数类别(32/46)的主要选择。这表明不同专家在处理不同类别特征时确实出现了专业化分工。
专家置信度分析通过热图展示。在MLRSNet数据集上,Expert 2对其预测的大多数实例表现出高置信度(蓝色),而Expert 1的置信度普遍较低(浅黄色)。在NWPU数据集上,两个专家的置信度分布相对均衡。在EuroSAT数据集上,Expert 2对更多类别表现出高置信度。这表明专家对其擅长的类别预测更为确信。
t-SNE特征空间可视化显示了模型学习到的特征表示。左图显示不同类别的特征点形成了紧密且可区分的簇,表明模型能有效区分不同类别。右图展示了专家在特征空间中的分配情况,同一类别的簇通常由同一种颜色的点(代表某个专家)主导,表明模型能一致地将同一类别的实例分配给特定的专家。少数簇中出现混合颜色则表明存在一些模型难以区分的实例。
消融实验验证了模型各组件的重要性。当同时使用通道和空间注意力机制时,模型在三个数据集上均达到最高准确率(MLRSNet: 93.25%, EuroSAT: 96.54%, NWPU: 92.56%)。移除空间注意力或通道注意力模块会导致性能显著下降,同时移除两者则性能下降最严重,证明了注意力机制对于聚焦关键空间区域和通道特征的必要性。与AlexNet、VGG、ResNet等预训练模型相比,LiteDenseMoE在参数量仅0.3百万、模型大小仅1.27 MB的情况下,取得了显著更高的分类精度,凸显了其轻量化和高效性。关于专家数量的实验表明,使用两个专家时模型性能最佳,增加专家数量反而导致性能下降和计算复杂度增加,这可能是由于专家过度专业化以及路由决策复杂性增加所致。此外,与SE-Net(仅通道注意力)、仅空间注意力以及自注意力等机制的比较表明,本文采用的通道-空间注意力顺序组合(CBAM风格)在精度和计算效率之间取得了最佳平衡。模型稳定性测试显示,随着输入图像噪声水平的增加,模型精度会下降,但EuroSAT数据集表现出相对更强的抗噪性。
VIII. CROSS-DATASET EVALUATION
跨数据集评估测试了模型的泛化能力。当在一个数据集上训练而在另一个数据集上测试时,模型性能有所下降(例如,在MLRSNet上训练,在NWPU上测试,准确率从92.56%降至84.23%),性能下降程度与数据集间的域差异(如空间分辨率、类别多样性)有关。尽管如此,LiteDenseMoE的跨数据集性能仍优于ResNet-50等基线模型,表明其学习到的是遥感数据的本质特征而非数据集特定伪影。
IX. STATISTICAL SIGNIFICANCE ANALYSIS
5折交叉验证结果显示,模型在三个数据集上的平均准确率分别为MLRSNet: 93.25% (±0.43%),NWPU: 92.56% (±0.51%),EuroSAT: 96.54% (±0.31%)。较小的标准差和狭窄的95%置信区间证明了模型在不同训练/测试划分下的鲁棒性和稳定性。
X. COMPARISON WITH SOTA MODELS
与当前最先进(SOTA)模型的比较表明,LiteDenseMoE在NWPU(92.56%)、EuroSAT(96.54%)和MLRSNet(93.25%)数据集上均取得了领先的分类精度,优于基于预训练模型、无监督特征学习或其他定制化CNN架构的现有方法。
XI. GRADCAM EXPLAINABLE AI(XAI) RESULTS
Grad-CAM可视化结果证实,在大多数正确分类的案例中(如airfield, dense residential),模型的注意力集中在图像中与类别相关的判别性区域上(如飞机、住宅区)。一些错误分类(如farm被误分为forest, flyover被误分为game space)揭示了模型在区分具有相似纹理或结构布局的类别时面临的挑战,指出了未来改进的方向。
本研究提出的LiteDenseMoE模型成功地将轻量级设计、注意力机制和专家混合模型有机结合,为低对比度遥感图像中的航空和沿海区域分类提供了一个高效、准确且具有一定可解释性的解决方案。实验结果表明,该模型在保持极低参数量和模型大小的前提下,在多个公开数据集上超越了现有方法,展现了出色的性能。深入的模型解释性分析揭示了不同专家的专业化行为及其决策依据,增强了模型的可信度。尽管存在对低质量数据噪声敏感、在不同地理环境和传感器模态下泛化能力有待进一步验证等局限性,但这项研究为遥感图像分析领域提供了新的思路和技术路径。未来的工作可以探索将LiteDenseMoE框架扩展到多模态、多时序遥感数据分析,以及进一步优化模型以适应更复杂的场景和应用需求。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号