MARS模型:基于文本的行人搜索新突破,视觉属性与跨模态重建的双重优化
《ACM Transactions on Multimedia Computing, Communications, and Applications》:MARS: Paying More Attention to Visual Attributes for Text-Based Person Search
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
本文提出了一种名为MARS(Mae-Attribute-Relation-Sensitive)的新型文本行人搜索(TBPS)架构,通过引入视觉重建损失(MAE Loss)和属性损失(Attribute Loss),有效解决了跨身份(inter-identity)噪声和身份内(intra-identity)变异问题。该模型在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上显著提升了平均精度(mAP),为多模态检索提供了更鲁棒的解决方案。
文本行人搜索(Text-Based Person Search, TBPS)作为多模态检索的重要分支,旨在通过文本描述从图库中检索特定身份的行人图像。然而,该任务面临两大核心挑战:一是文本描述的模糊性导致的跨身份噪声(inter-identity noise),即同一描述可能对应多个相似身份;二是同一身份因姿态、光照等因素产生的身份内变异(intra-identity variations),导致视觉外观不一致。为应对这些挑战,研究者提出了MARS架构,通过引入视觉重建损失和属性损失,显著提升了检索精度。
MARS架构的核心组件包括图像编码器(Ev)、文本编码器(Et)、跨模态编码器(Ecross)和掩码自编码器(MAE)解码器(Dmae)。其创新点主要体现在两方面:首先,属性损失通过识别文本中的形容词-名词组合(如“白色衬衫”),强制模型平等关注每个属性,避免忽略关键细节;其次,MAE损失通过重建被掩码的图像块,并借助文本嵌入增强图像与文本的关联,提升了特征的判别性。实验表明,MARS在多个数据集上均实现了最优性能,尤其在平均精度(mAP)指标上提升显著。
在模型设计上,MARS基于RaSa框架,并对其进行了多项改进。例如,跨模态编码器的所有12个块均引入了交叉注意力机制,而非仅最后6个块,从而更充分地融合多模态信息。此外,模型还结合了关系感知(RA)损失和敏感度感知(SA)损失,进一步优化了图像-文本对的匹配效果。
属性损失的设计尤为关键。传统方法往往对长文本中的属性关注不均,导致 discriminative 属性被忽略。MARS通过SpaCy工具提取属性块,并对每个块计算平均嵌入,再通过分类任务强化其与图像的关联。加权版本的属性损失还考虑了词频,对罕见属性赋予更高权重,进一步提升了模型对细微差异的敏感度。
MAE损失的引入则增强了模型的鲁棒性。该损失要求解码器根据文本线索重建被掩码的图像区域,迫使编码器学习更具信息量的特征表示。实验显示,即使掩码比例高达75%,解码器仍能准确还原图像细节,证明了文本与图像特征的紧密耦合。
在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的实验结果表明,MARS在mAP指标上分别达到71.41、44.93和52.92,均优于现有方法。消融实验进一步验证了各组件的必要性:属性损失与MAE损失的结合对性能提升至关重要,而单独使用任一损失均无法达到最佳效果。
定性分析显示,MARS生成的注意力图更精准地聚焦于文本描述的视觉属性。例如,对于“绿色手机”这一属性,模型能准确锁定手机区域,而基线模型则存在注意力分散的问题。此外,在属性移除实验中,MARS表现出更强的鲁棒性,即使部分属性被删除,其检索精度下降幅度也远小于基线模型。
总之,MARS通过多模态重建和属性均衡学习,有效缓解了TBPS任务中的噪声和变异问题,为复杂场景下的行人检索提供了新的解决方案。未来工作可探索3D形状重建、属性级细粒度匹配等方向,进一步提升模型性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号