
-
生物通官微
陪你抓住生命科技
跳动的脉搏
动态感知补丁增强Transformer在遮挡行人重识别中的创新应用
【字体: 大 中 小 】 时间:2025年07月31日 来源:Knowledge-Based Systems 7.6
编辑推荐:
针对遮挡行人重识别(re-ID)中特征提取易受干扰的难题,张欣等人提出动态补丁感知增强Transformer(DPEFormer),通过动态补丁选择模块(DPSM)和特征融合模块(FBM)实现无外部检测器的精准局部特征提取,结合真实遮挡增强(ROA)策略提升模型鲁棒性。该研究在遮挡与整体re-ID基准测试中显著超越现有方法,代码已开源。
在智能视频监控领域,行人重识别(re-ID)技术面临着遮挡场景下的重大挑战——当行人被车辆、栏杆或其他物体遮挡时,传统方法依赖外部语义或姿态检测器(如语义解析或OpenPose)定位非遮挡区域,但存在跨域适应性差、计算成本高且易受噪声干扰等问题。针对这一瓶颈,四川大学合成视觉基础科学国家重点实验室的张新|Keren Fu|Qijun Zhao团队在《Knowledge-Based Systems》发表研究,提出动态补丁感知增强Transformer(DPEFormer),通过三项创新实现突破:动态补丁选择模块(DPSM)利用标签引导的代理令牌硬性筛选关键人体补丁;特征混合模块(FBM)通过交叉注意力融合全局与局部特征;真实遮挡增强(ROA)策略借助Segment Anything Model生成逼真遮挡数据提升训练效果。
关键技术包括:1)基于ViT架构的DPSM模块,通过一阶导数动态分配二元权重(0/1)筛选补丁;2)FBM模块实现全局分类特征与局部特征的互补融合;3)ROA策略利用SAM模型合成多行人遮挡等复杂场景数据。实验采用Occluded-DukeMTMC和Occluded-REID数据集验证。
动态补丁选择模块(DPSM)
DPSM将图像分割为补丁令牌,通过计算其与代理令牌的相似度动态选择最具判别性的人体区域(如图1所示),相比传统软注意力机制(连续权重[0,1]),其硬注意力(二元权重)更有效过滤遮挡噪声。
特征混合模块(FBM)
FBM通过交叉注意力机制整合ViT输出的全局特征(含[cls]分类令牌)与DPSM筛选的局部特征,利用部件多样性增强表征能力,最终特征维度为R(N+1)×c。
真实遮挡增强(ROA)
ROA基于SAM模型生成贴近真实场景的遮挡数据(如背包、多行人遮挡),通过对比学习提升模型在复杂遮挡下的鲁棒性,且不增加推理阶段计算负担。
研究在Occluded-DukeMTMC(15,618训练图像)和Occluded-REID(200身份)数据集上实现SOTA性能,证实DPEFormer无需外部检测器即可精准定位人体部件。结论指出,该框架为遮挡re-ID提供了端到端解决方案,其补丁级特征选择范式可扩展至其他遮挡敏感任务。未来可探索SAM在其他模态数据增强中的应用,以及DPSM在跨域适应中的潜力。
生物通微信公众号
知名企业招聘