学习视觉-语义嵌入以实现泛化的人脸重识别:一个统一的视角
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Learning Visual-Semantic Embedding for Generalizable Person Re-Identification: A Unified Perspective
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
可泛化行人重识别研究提出MMET框架和动态遮罩机制MMM,通过联合学习视觉与语义特征提升跨域泛化能力,实验验证其有效性。
摘要
通用人员重新识别(Re-ID)是机器学习和计算机视觉领域一个非常热门的研究课题,由于其在公共安全和视频监控中的多种应用,在实际场景中发挥着重要作用。然而,以往的方法主要集中在视觉表示的学习上,而忽视了在训练过程中探索语义特征的潜力,这容易导致系统在新领域应用时泛化能力较差。在本文中,我们提出了一种名为
MMET的统一框架,用于实现更强大的通用Re-ID视觉-语义嵌入学习。为了进一步增强基于Transformer的鲁棒特征学习能力,我们引入了一种称为
掩码多模态建模(Masked Multimodal Modeling, MMM)的动态掩码机制,该机制可以对图像块和文本标记进行掩码处理,从而能够同时处理多模态或单模态数据,并显著提升通用人员重新识别的性能。在多个基准数据集上的广泛实验表明,我们的方法优于以往的研究方法。我们希望这种方法能够推动视觉-语义表示学习领域的发展。我们的源代码也公开发布在
https://github.com/JeremyXSC/MMET。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号