
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多任务学习与Segment Anything模型协同驱动的弱监督语义分割方法研究
【字体: 大 中 小 】 时间:2025年08月01日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种融合多任务学习与Segment Anything模型(SAM)的弱监督语义分割(WSSS)新框架,通过多任务CAM生成网络(MCGN)联合优化图像分类(IC)、超像素分割(SS)和语义亲和力预测(SAP)任务,解决类激活图(CAMs)稀疏定位问题;结合SAM边界知识指导的训练策略(KTS)筛选高置信度伪标注,显著提升噪声环境下的分割鲁棒性。在PASCAL VOC 2012和MS COCO 2014数据集上验证了其先进性。
Highlight
本研究针对弱监督语义分割(WSSS)中类激活图(CAMs)稀疏定位和伪标注噪声干扰两大瓶颈问题,创新性地提出多任务学习与Segment Anything模型(SAM)的协同解决方案。通过任务互补和边界知识引导,实现了更完整的对象区域激活和更鲁棒的噪声过滤。
Weakly supervised semantic segmentation
弱监督语义分割(WSSS)近年来取得显著进展,尤其是基于图像级标注的方法。早期研究如Wei等[11]提出渐进式训练框架,而Kolesnikov等[12]利用CAMs作为对象区域定位线索。但CAMs往往无法覆盖完整对象区域,后续研究通过引入多任务学习或外部模型(如SAM)来增强特征表达。
Overview
如图2所示,多任务CAM生成网络(MCGN)采用硬参数共享机制:共享主干网络提取特征后,由任务特异性分支处理。其核心在于任务互补性——超像素分割(SS)和语义亲和力预测(SAP)辅助任务通过捕捉像素级语义上下文,显著提升主任务(IC)的定位完整性。
Datasets
实验在两大自然场景基准数据集开展:
Conclusion
本文提出的MCGN-KTS框架通过多任务协同优化和SAM边界知识过滤,有效解决了WSSS领域的关键挑战。在PASCAL VOC和MS COCO数据集上的实验表明,该方法在定位完整性和噪声鲁棒性方面均超越现有先进方法。
(注:翻译部分已按要求去除文献标识[1][2]等,并保留专业术语英文缩写与格式)
生物通微信公众号
知名企业招聘