基于迭代混合伪标签优化的弱监督语义分割方法研究

【字体: 时间:2025年06月20日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决弱监督语义分割(WSSS)中伪标签可靠性不足的问题,研究人员提出了一种创新的迭代混合策略PL-Mix。该方法通过跨图像迁移对象区域并融合新上下文,结合CAM-based EMD损失和掩码策略,在PASCAL VOC2012和MS COCO2014数据集上实现了最先进的性能。这项研究为减少像素级标注依赖提供了有效解决方案,显著提升了弱监督条件下的分割精度。

  

在计算机视觉领域,语义分割是实现精细场景理解的关键技术。然而,获取像素级标注需要耗费大量人力,这严重制约了全监督深度学习模型的应用。弱监督语义分割(WSSS)试图仅利用图像级标签等弱监督信号来解决这一问题,但现有方法生成的伪标签往往存在两个典型缺陷:要么遗漏物体部分区域,要么包含不相关背景。这些问题源于单个图像提供的有限上下文信息,导致类激活图(CAM)质量不佳,最终影响分割性能。

针对这一挑战,国内研究人员在《Pattern Recognition》上发表了一项创新研究。团队提出名为PL-Mix的迭代混合策略,通过跨图像迁移对象区域并创造新的上下文组合,显著提升了伪标签质量。该方法的核心思想是利用数据集中丰富的全局上下文信息,通过混合不同图像中的语义内容,迫使模型在不同背景下保持预测一致性,从而产生更准确可靠的伪标签。

研究采用了三个关键技术方法:首先,设计迭代混合机制PL-Mix,将主图像的增强对象区域与辅助图像背景结合;其次,提出基于地球移动距离(EMD)的损失函数,动态调整不同置信度区域的优化重点;最后,开发CAM-based掩码增强技术,针对性地遮蔽高置信区域以强化模型对边缘特征的学习。实验在PASCAL VOC2012和MS COCO2014标准数据集上进行,使用MCTformer等主流WSSS框架作为基准模型。

在"方法"部分,研究详细阐述了PL-Mix的四步工作流程:伪掩码生成、主体对象提取、几何增强变换和图像混合。通过公式(11)-(12)描述的混合操作,系统能够保留主图像的前景语义,同时融入辅助图像的多样化背景。损失函数设计尤为精巧,公式(18)整合了EMD损失、空间连续性损失(LSC)、软Dice损失(LSD)和软IoU损失(LIoU),形成多目标优化框架。

"实验结果"显示,PL-Mix使SEAM、MuSCLe和MCTformer的mIoU分别提升7.8/6.0、11.5/6.8和8.8/4.9个百分点。表2的迭代训练分析表明,经过10个PL-Mix优化周期,模型性能持续提升。可视化结果图3清晰展示了CAM质量的渐进式改善,相比基线方法能更完整地覆盖目标区域。在PASCAL VOC2012测试集上,最终达到74.2%的mIoU,超越所有对比方法;在更具挑战性的COCO数据集上也取得45.4%的优异表现。

"讨论"部分指出,PL-Mix的成功源于其独特的上下文重组机制。通过将对象置于新背景中,模型能够打破原始图像中的虚假关联,学习更具判别性的特征表示。统计检验表11证实,性能提升具有高度显著性(p<10-82~10-198)。虽然方法在严重遮挡场景仍存在局限,如图5所示的部分失败案例,但其在常规情况下的表现已显著推进了WSSS领域的技术边界。

这项研究的科学价值在于:第一,提出模型无关的伪标签优化框架,可灵活嵌入现有WSSS流程;第二,开创性地将混合增强应用于弱监督环境,为数据高效学习提供新思路;第三,在两大标准基准上确立新的性能标杆。未来工作可考虑融合视觉-语言模型的语义理解能力,进一步提升复杂场景下的分割鲁棒性。该成果对医学影像分析、自动驾驶等需减少标注依赖的应用场景具有重要实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号