基于多模态交叉融合的Mamba网络:结合互补性掩码自监督方法进行遥感图像语义分割
【字体:
大
中
小
】
时间:2025年12月03日
来源:International Journal of Applied Earth Observation and Geoinformation 8.6
编辑推荐:
遥感图像多模态语义分割方法综述:提出MCF-Mamba架构与CMSS策略
遥感图像语义分割是地球观测领域的核心任务,其目标是将多源传感器获取的图像数据转化为具有地理意义的语义标签。当前研究主要面临三大挑战:首先,传统卷积神经网络(CNN)受限于局部感受野,难以捕捉全局空间依赖关系;其次,基于Transformer的架构虽然具备强大的全局建模能力,但计算复杂度呈平方级增长,难以处理多模态数据融合;第三,标注数据获取成本高昂,导致模型在数据稀缺场景下泛化能力不足。针对这些瓶颈,研究者提出了多种融合策略,但存在信息互补不足或计算效率低下等问题。
本文提出MCF-Mamba网络架构与CMSS自监督策略的协同解决方案。该方案通过三个核心模块实现技术突破:双分支VMamba编码器、多模态跨融合模块和U型Mamba解码器。其中,VMamba编码器采用独立的多模态分支并行处理,每个分支通过视觉状态空间(VSS)模块提取多尺度特征,利用Mamba架构的线性复杂特性实现长距离空间建模。这种设计既解决了CNN的局部感知局限,又规避了Transformer的高计算成本,使模型在512×512像素输入下保持线性计算复杂度。
多模态跨融合模块通过跨模态选择性扫描机制,构建四维交互空间(时间、空间、模态、尺度)。具体而言,该模块采用四向扫描(水平、垂直、逆向水平、逆向垂直)将二维特征转换为序列数据,通过S6块进行跨模态交互建模。这种创新设计实现了模态间的动态权重分配,有效增强互补信息的融合效果。实验表明,融合模块可使SAR与光学图像的互相关系数提升23.6%,显著改善复杂地形的分类精度。
U型Mamba解码器采用跳跃连接技术,在保留低层空间细节的同时,通过VSS模块逐步聚合高层语义特征。这种架构使模型在处理城市建筑群等细粒度分割任务时,能够保持边界连续性,实验数据显示其边缘定位误差较传统U-Net降低41.7%。
在自监督学习方面,CMSS策略通过互补掩码机制,将多模态遥感图像的语义一致性建模为可学习的特征约束。具体实现时,采用动态掩码分配策略:对于光学图像随机掩码50%的256×256像素块,同时确保对应SAR图像的相同位置区域保持可见。这种互补掩码设计迫使模型学习跨模态的语义对齐能力,实验证明可提升模型在10%标注数据下的分类精度达5.8%。
为验证方案的鲁棒性,研究团队构建了三个多模态遥感数据集:DFC2020(光学-合成孔径雷达)、MSAW(光学-雷达)、Hunan(光学-数字高程模型)。对比实验显示,MCF-Mamba在三类数据集上的mIoU分别达到75.86%、82.21%和76.92%,较次优模型提升4.3-7.8个百分点。特别在建筑提取任务中,模型在0.5米分辨率下的边界定位精度达到89.4%,较传统方法提升15.2个百分点。
在计算效率方面,MCF-Mamba通过Mamba架构的线性复杂度特性,将模型参数量压缩至23.5M,计算量降至18.7 GFLOPS,较同类Transformer模型减少62.3%的参数量。这种设计使其在NVIDIA V100 GPU上可实现每秒120万次推理,满足实时监测需求。
实验结果表明,CMSS策略在低标注场景下具有显著优势。当仅使用10%标注数据进行微调时,模型在DFC2020数据集上的mIoU达到68.55%,较纯监督学习模型提升11.5个百分点。这种提升源于策略对跨模态一致性约束的学习:模型通过重建互补掩码区域的关联特征,可自动补偿标注数据缺失带来的信息不足。
在应用层面,该方案已成功应用于农业资源评估(精度达94.2%)、城市规划(边界定位误差<2米)和生态环境监测(分类一致性>0.87)。特别是在城市热岛效应监测中,模型可识别分辨率0.5米下的微型建筑群,为智慧城市提供高精度三维建模支持。
未来研究方向包括:1)构建跨模态动态注意力机制,进一步提升复杂场景下的分类精度;2)探索多时相遥感数据融合,建立时间维度的语义关联模型;3)开发轻量化推理框架,适配边缘计算设备。这些扩展将进一步提升模型在自动驾驶、灾害应急等领域的应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号