LAttE:基于无标签多模态特征融合的行人重识别创新框架及其在智能交通中的应用

【字体: 时间:2025年08月02日 来源:Neurocomputing 6.5

编辑推荐:

  本文推荐一篇突破性研究:作者团队提出LAttE框架(Label-free Attributes and pose Embedding),通过GPT-4o自动生成语义属性库(Attribute Bank)并采用CLIP(Contrastive Language–Image Pretraining)编码,结合HRNet姿态特征与跨模态注意力机制,实现无人工标注的行人重识别(Re-ID)。该方案在Market-1501等基准测试中达到SOTA性能,为智能车辆(如座舱监控系统)提供高效解决方案。

  

Highlight

本研究提出创新的无标签属性与姿态嵌入框架(LAttE),通过以下三大突破点重塑行人重识别(Re-ID)领域:

自动化属性生成

利用GPT-4o预先生成200+种人体外观细粒度描述(如"黑色眼镜"、"纹身"),通过CLIP文本编码器构建可复用的属性库(Attribute Bank),突破传统人工标注的语义局限。

基于CLIP的相似度矩阵

创新性地将CLIP嵌入向量转化为伪标签相似度矩阵,作为训练过程中的自监督信号,有效解决真实场景中未标注特征(如独特步态)的识别难题。

跨模态注意力与骨骼令牌融合

• 视觉-姿态特征协同:通过HRNet提取的骨骼关键点(Bone Tokens)与视觉特征进行跨模态注意力交互,动态捕捉衣着(如红色外套)与体态(如背包姿势)的关联性

• 最大均值差异(MMD)特征对齐:增强不同摄像头视角下的特征一致性,使模型在光照变化场景的Rank-1准确率提升12.3%

实验验证

在Market-1501和DukeMTMC-ReID数据集上,LAttE的mAP达到89.7%,显著优于现有属性依赖型方法。特别在智能车载场景测试中,对遮挡行人的识别召回率提高19.8%。

结论

LAttE框架通过预生成语义属性与多模态融合策略,为Re-ID系统提供可解释的生物特征分析能力。其无标签特性特别适用于医疗监护场景下的隐私敏感数据,未来可扩展至跨医院患者追踪等应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号