在嵌入式设备上,利用任务特定的注意力网络实现的同时人物属性识别

《Engineering Applications of Artificial Intelligence》:Simultaneous person attribute recognition using task-specific attention network on embedded devices

【字体: 时间:2025年12月13日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  行人属性识别中的多任务高效注意力网络设计及优化

  
本文针对实时 pedestrian attribute recognition(PAR)系统的效率与精度平衡问题,提出了一种名为 SPARTAN 的多任务注意力网络架构。该方案通过共享骨干网络、混合注意力机制、知识蒸馏及动态梯度归一化技术,在保证模型轻量化(推理速度达114 FPS)的前提下,实现了0.889的平均准确率,显著优于同期复杂方法。

1. **技术背景与挑战**
PAR 系统需在单张图像中同时识别11类服装颜色、性别、背包及帽子等属性。传统方法存在三大痛点:
- **局部特征依赖**:服装颜色需关注下装/上装特定区域,背包/帽子涉及头部或腰部特征,但现有方法多采用全局特征提取(如ACN网络直接分析全身图像),导致区域关注不足。
- **任务不平衡**:性别识别(标注完整)与背包检测(标注缺失)等任务难度差异大,容易导致模型偏向高难度任务。
- **标注不完整**:约70%的培训样本存在部分缺失标签,传统方法需人工填补或依赖复杂数据增强。

2. **核心创新点**
SPARTAN 通过三项技术突破实现效率与精度的协同优化:
- **ConvNeXt共享骨干网络**:采用轻量级但高效的ConvNeXt-Base架构,输入尺寸调整为72×192(适配实际监控场景的人体尺寸比例),在保持0.837的基准准确率的同时,较Swin Transformer快5倍(114 vs 21 FPS)。
- **混合注意力机制(HAM)**:在任务分支前集成空间-通道注意力模块,通过通道注意力(CAM)筛选关键特征通道,结合空间注意力(SAM)定位有效区域。实验显示,相较CBAM模块,SAM的卷积计算使推理速度提升3%,且在服装颜色识别中准确率提高2.3%。
- **动态训练策略**:
- **知识蒸馏**:利用BLIP-2 VLM作为教师模型,通过语义查询生成伪标签。在缺失标签任务(如下装颜色)中,该方法使训练集利用率从57%提升至92%,特征空间分离度提高(t-SNE可视化显示类间重叠减少40%)。
- **GradNorm梯度归一化**:通过实时调整各任务损失权重(如性别识别权重动态从1.4降至0.7),使模型学习速率均衡。实验表明,该技术使任务间标准差从0.104降至0.048,且平均准确率提升3.2%。

3. **性能验证与对比**
在MIVIA PAR数据集上的对比显示:
- **速度优势**:SPARTAN在Jetson AGX Orin嵌入式平台达到114 FPS,是次优方案SPARKY的5.5倍。其ConvNeXt-Base骨干网络在保持ResNet-50性能(0.792)的同时,参数量减少62%。
- **准确率平衡**:针对任务难度差异,GradNorm动态调整权重后,性别识别准确率达93.7%,较手动权重优化(92.5%)提升1.2%。知识蒸馏使下装颜色识别(85.4%→89.6%)成为提升最显著的模块。
- **泛化能力**:在未标注的测试集(20,894张图像)中,SPARTAN的跨任务迁移准确率(89.6%)比单任务模型(87.6%)高2%。

4. **消融研究验证**
通过组件级消融实验确认:
- **网络架构选择**:ConvNeXt-Base较Swin Transformer在速度(114 vs 21 FPS)和准确率(88.9% vs 86.4%)均占优,其轻量化设计使模型在嵌入式设备内存占用降低35%。
- **注意力机制必要性**:对比无注意力模块(78.2%)、CBAM(87.7%)和HAM(89.6%)的版本,HAM在空间定位精度上提升2.4个百分点(如帽子检测的置信度分布更集中)。
- **多任务协同效应**:共享骨干网络使服装颜色识别准确率(89.6%)比单任务模型(87.8%)高1.8%,验证了跨任务特征共享的有效性。

5. **实际应用价值**
该方案在监控场景中展现出独特优势:
- **实时性**:处理速度114 FPS满足95%的安防系统响应需求(行业标准≥100 FPS),功耗较同类模型降低42%。
- **鲁棒性**:在光线不足(<100lux)或35°视角偏转时,准确率仍保持≥87%。
- **可扩展性**:新增任务(如情绪识别)仅需扩展对应注意力模块和分类头,无需重构整个网络。

6. **未来改进方向**
研究团队提出三个演进路径:
- **域适应优化**:针对监控摄像头特有的低分辨率(<640×480)和高动态范围(100:1),计划开发自适应输入模块。
- **多模态融合**:探索将红外热成像(人体姿态检测)与可见光图像(属性识别)联合建模,预计在夜间场景提升23%准确率。
- **轻量化部署**:通过通道剪枝(ConvNeXt-Base减少至18层)和量化感知训练(INT8量化后速度损失仅8%),目标将模型体积压缩至1MB以内。

该研究为嵌入式视觉设备提供了可复用的技术框架,其模块化设计允许根据实际需求裁剪(如移除性别识别模块可提升速度18%)。实验数据表明,在边缘计算设备(如NVIDIA Jetson Nano)上,SPARTAN的推理速度仍可达67 FPS,准确率维持在85%以上,这为智慧零售、交通监控等实时场景提供了可靠的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号