鲁棒且具有旋转等变性的对比学习

《IEEE Transactions on Neural Networks and Learning Systems》:Robust and Rotation-Equivariant Contrastive Learning

【字体: 时间:2025年12月02日 来源:IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐:

  针对对比学习在物体未见旋转方向时性能下降的问题,本文提出旋转equivariance自适应平衡网络RefosNet。通过构建旋转不变映射,分离旋转不变与equivariance特征,并引入自适应梯度钝化策略,实现旋转鲁棒表示学习。实验表明在ObjectNet-13、ImageNet-100等数据集上,相比SimCLR和MoCo-v2分别提升7.12%、5.5%-7.29%准确率,且在Place205等场景中保持强泛化能力。

  

摘要:

对比学习(CL)方法通过学习各种变换下的不变表示取得了显著的成功。然而,旋转变换被认为对CL有害,因此很少被使用,这导致当物体呈现未见过的方向时,CL方法会失效。本文提出了一种表示焦点转移网络(RefosNet),它将旋转变换加入到CL方法中以提高表示的鲁棒性。首先,RefosNet构建了原始图像特征与旋转后图像特征之间的旋转等变映射。然后,RefosNet通过明确分离旋转不变特征和旋转等变特征来学习语义不变表示(SIRs)。此外,引入了一种自适应梯度钝化策略,逐步将表示焦点转移到不变表示上。这种策略可以防止旋转等变性的灾难性遗忘,有利于表示在已知和未见方向上的泛化。我们调整了基线方法(即“SimCLR”和“momentum contrast (MoCo) v2”)以与RefosNet配合使用,以验证其性能。广泛的实验结果表明,我们的方法在识别任务上取得了显著的改进。在ObjectNet-13数据集上,与SimCLR相比,RefosNet在分类准确性上提高了7.12%。在已知方向的数据集上,其在ImageNet-100上的性能提高了5.5%,在STL10上提高了7.29%,在CIFAR10上提高了1.93%。此外,RefosNet在Place205、PASCAL VOC和Caltech 101数据集上也表现出很强的泛化能力。我们的方法在图像检索任务中也取得了令人满意的结果。

引言

在没有手动注释的情况下从图像中学习表示是计算机视觉中一个广泛关注且具有挑战性的问题[1]。最近,对比学习(CL)[2]被证明是一种有效的方法,可以通过从各种语义不变变换(SITs)(例如裁剪、颜色失真、模糊等)中学习不变表示来应对这一问题。这些SITs提供了同一物体的多个版本,从而提高了表示的鲁棒性和泛化能力[3],其性能令人满意,如图1(a)所示。

SimCLR [3]在具有已知或未见方向的物体数据集上的分类性能比较。(a) 出现在已知方向中的样本,其性能用红色表示。(b) 由于物体姿态改变和图像旋转而呈现未见方向的物体,其性能用蓝色表示。我们看到在未见方向上的性能下降了40%以上,两者之间的差距很大。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号