学习视觉-语义嵌入以实现泛化的人脸重识别:一个统一的视角

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Learning Visual-Semantic Embedding for Generalizable Person Re-Identification: A Unified Perspective

【字体: 时间:2025年11月07日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  可泛化行人重识别研究提出MMET框架和动态遮罩机制MMM,通过联合学习视觉与语义特征提升跨域泛化能力,实验验证其有效性。

  

摘要

通用人员重新识别(Re-ID)是机器学习和计算机视觉领域一个非常热门的研究课题,由于其在公共安全和视频监控中的多种应用,在实际场景中发挥着重要作用。然而,以往的方法主要集中在视觉表示的学习上,而忽视了在训练过程中探索语义特征的潜力,这容易导致系统在新领域应用时泛化能力较差。在本文中,我们提出了一种名为MMET的统一框架,用于实现更强大的通用Re-ID视觉-语义嵌入学习。为了进一步增强基于Transformer的鲁棒特征学习能力,我们引入了一种称为掩码多模态建模(Masked Multimodal Modeling, MMM)的动态掩码机制,该机制可以对图像块和文本标记进行掩码处理,从而能够同时处理多模态或单模态数据,并显著提升通用人员重新识别的性能。在多个基准数据集上的广泛实验表明,我们的方法优于以往的研究方法。我们希望这种方法能够推动视觉-语义表示学习领域的发展。我们的源代码也公开发布在https://github.com/JeremyXSC/MMET
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号