MLE-YOLO:一种轻量级且鲁棒的车辆和行人检测器,适用于自动驾驶中的恶劣天气环境
《Digital Signal Processing》:MLE-YOLO: A lightweight and robust vehicle and pedestrian detector for adverse weather in autonomous driving
【字体:
大
中
小
】
时间:2025年10月07日
来源:Digital Signal Processing 3
编辑推荐:
遥感图像分割在复杂场景中面临标注不足、领域差异和光谱相似类别的挑战。本文提出FFSNet框架,融合MobileSAM基础模型与DINOv2自监督编码器,通过自适应特征融合模块平衡通用先验与领域特征,并改进解码器实现多类分割。实验表明,该模型在LoveDA、ISPRS Potsdam和Vaihingen数据集上mIoU达55.4%、mF1达88.3%和91.6%,参数量较D2lS减少50%且保持高效推理。
远程感知图像分割是计算机视觉领域的重要任务,其目标是从高分辨率的遥感图像中准确识别并勾勒出多种地表覆盖类别。这项技术在城市规划、环境监测、农业管理和灾害响应等多个应用场景中发挥着关键作用。然而,遥感图像的复杂性给相关技术带来了诸多挑战。首先,遥感数据中存在多尺度物体,例如数十米高的建筑物与亚米级的车辆,这种尺度差异对分割模型提出了更高的要求。其次,不同传感器获取的遥感图像在光谱特性上存在显著异质性,增加了模型识别的难度。此外,环境动态变化,如季节性植被变化,也使得遥感图像的分割任务更加复杂。由于遥感图像通常具有广阔的地理覆盖范围和多样的地表类型,获取像素级别的标注不仅成本高昂,而且耗时费力,尤其是对于稀有或细粒度类别,如湿地亚型或受损基础设施等。同时,监督学习模型在跨地理区域的泛化能力有限,难以适应复杂多变的现实场景。
为了应对这些挑战,近年来自监督学习(Self-Supervised Learning, SSL)技术的兴起为遥感图像分割提供了新的思路。SSL框架,如对比学习和知识蒸馏,能够利用未标注数据学习到稳健的特征表示,从而在减少人工标注依赖的同时提升模型性能。其中,DINO作为一种基于教师-学生蒸馏的自监督学习方法,通过捕捉语义一致的视觉基元,在边界检测和空间关系建模方面表现出色。与此同时,基础模型如Segment Anything Model(SAM)通过提示工程实现了零样本分割,这在自然图像分割任务中取得了显著成果。然而,SAM在遥感图像领域面临一些关键问题,例如其在处理多尺度物体和多类别分割时表现不足,且因空间分辨率较低而在复杂场景中效果受限。此外,尽管已有研究尝试优化SAM以适应遥感任务,如通过微调或引入边缘感知损失函数,但这些方法仍然无法从根本上解决遥感图像分割中的核心挑战,如光谱相似类别的区分困难以及异构特征之间的尺度差异问题。
为了解决上述问题,本文提出了一种名为FFSNet的新框架。FFSNet结合了基础模型和自监督学习的互补优势,通过自适应特征融合机制实现高效且上下文感知的信息整合。该框架的核心思想是将轻量级的MobileSAM编码器与基于DINOv2的自监督编码器相结合,前者提供了强大的零样本分割能力,而后者则通过在遥感数据上的预训练,捕捉到特定领域的语义特征。这种设计不仅保留了基础视觉模型的表达能力,还显著降低了模型的参数量和计算开销,使其更适合大规模遥感图像处理任务。此外,FFSNet还对SAM中的掩码解码器进行了改进,使其能够生成包含类别信息的掩码输出,从而更好地满足遥感分割任务中对像素级分类的需求。
在方法论部分,FFSNet的架构设计分为三个主要模块:基础模型编码器、自监督编码器以及自适应特征融合模块。基础模型编码器采用MobileSAM,这是一种经过优化的轻量级版本,能够有效减少模型的计算负担,同时保持较高的分割性能。自监督编码器则基于DINOv2,通过在遥感数据集上进行预训练,使模型能够学习到与遥感场景相关的特征表示。这两个编码器的特征输出通过自适应特征融合模块进行整合,该模块采用基于注意力的动态加权机制,能够根据具体任务需求灵活调整不同编码器的特征贡献。这种动态融合策略不仅提高了模型对复杂场景的适应能力,还增强了其对光谱相似类别的区分能力。
在实验部分,FFSNet在三个具有挑战性的遥感基准数据集上进行了测试,包括LoveDA、ISPRS Potsdam和Vaihingen。实验结果表明,FFSNet在这些数据集上均取得了优异的性能表现。具体而言,在LoveDA数据集上,FFSNet的mIoU(平均交并比)达到了55.4%,超过了现有的D2lS模型。在ISPRS Potsdam数据集上,FFSNet的mF1(平均F1分数)为88.3%,优于AerialFormer。而在Vaihingen数据集上,FFSNet的mF1达到了91.6%,显示出其在多类别分割任务中的强大能力。值得注意的是,FFSNet的参数量仅为44.7M,比D2lS减少了近50%,这表明其在保持高分割精度的同时,具有显著的计算效率优势。
FFSNet的成功不仅体现在其卓越的性能表现上,更在于其为遥感图像分割领域提供了一种新的范式。传统方法通常需要大量标注数据才能实现良好的分割效果,而FFSNet通过融合基础模型和自监督学习的优势,能够在较少标注的情况下实现高效的分割。这种轻量化与高性能的结合,使得FFSNet在大规模遥感数据处理中具有更高的实用价值。此外,FFSNet的自适应特征融合机制和改进的掩码解码器,为解决遥感图像中的光谱相似类别和尺度差异问题提供了新的思路,有助于推动遥感图像分割技术的发展。
本文的创新点主要体现在四个方面。首先,提出了一种新的框架,将基础模型与自监督学习相结合,有效连接了通用视觉表示和领域特定特征。其次,引入了自适应特征融合模块,该模块能够动态整合来自不同编码器的特征,从而实现更高效的信息融合。第三,对SAM中的掩码解码器进行了改进,使其能够生成包含类别信息的掩码输出,从而更好地满足遥感分割任务的需求。第四,通过在多个遥感基准数据集上的广泛实验,验证了FFSNet在分割精度和计算效率方面的优越性。实验结果表明,FFSNet不仅在分割性能上达到或超越了当前最先进的模型,还在参数量和计算成本方面实现了显著优化。
此外,本文还对现有方法进行了深入分析,指出了其在遥感图像分割中的局限性。例如,监督学习方法如UNetFormer虽然在特定数据集上表现良好,但依赖于大量标注数据,限制了其在实际应用中的推广。而基础模型如SAM虽然具备强大的零样本分割能力,但在处理遥感图像中的多尺度和多类别问题时表现不足,且计算开销较大。自监督学习方法如DINO虽然能够减少对标注数据的依赖,但在处理遥感图像的复杂场景时,其泛化能力仍然有限。因此,FFSNet的提出旨在弥补这些方法之间的不足,通过融合基础模型和自监督学习的优势,构建一种更适用于遥感图像分割的高效框架。
综上所述,FFSNet为遥感图像分割提供了一种全新的解决方案。通过结合基础模型和自监督学习,FFSNet在保持高性能的同时显著降低了计算成本,使其更适合大规模遥感数据处理。此外,自适应特征融合机制和改进的掩码解码器,使得FFSNet能够更好地应对遥感图像中的多尺度和光谱相似类别问题。这些创新不仅提升了遥感图像分割的准确性,也为未来相关研究提供了新的方向。随着遥感技术的不断发展,FFSNet有望在实际应用中发挥更大的作用,为城市规划、环境监测、灾害评估等领域提供更可靠的技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号