基于注意力机制的多任务网络FAR-AMTN在面部属性识别中的创新应用

【字体: 时间:2025年06月25日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  针对多任务网络(MTN)在面部属性识别(FAR)中参数激增和特征交互不足的难题,研究人员提出融合权重共享组特异性注意力(WSGSA)和跨组特征融合(CGFF)模块的FAR-AMTN模型,通过动态加权策略(DWS)实现任务同步收敛。在CelebA和LFWA数据集上验证显示,该模型以更少参数获得更高精度,为计算机视觉领域多任务学习提供新范式。

  

在人工智能与计算机视觉领域,面部属性识别(Face Attribute Recognition, FAR)作为基础技术,支撑着从人脸检索到虚拟化妆等众多应用。然而传统多任务网络(Multi-Task Network, MTN)采用"底层共享+高层独立"的架构,不仅面临参数数量随任务增长呈指数级膨胀的困境,更因高层特征交互的缺失而限制模型泛化能力。微软研究院开发的ResNet虽在特征提取方面表现卓越,但直接应用于FAR时仍存在任务收敛速度不均、损失尺度差异导致的"跷跷板效应"(seesaw effect)等挑战。

为解决上述问题,由Gong Gao领衔的研究团队创新性地提出FAR-AMTN模型。该研究通过三方面突破重构了MTN架构:首先,权重共享组特异性注意力(Weight-Shared Group-Specific Attention, WSGSA)模块采用参数共享机制,在ResNet50的conv5层嵌入注意力机制,既提升组特征表征能力,又将模型参数量降低至传统MTN的1/3;其次,跨组特征融合(Cross-Group Feature Fusion, CGFF)模块通过特征交互挖掘属性间语义关联,实验显示该设计使模型在CelebA数据集上的平均准确率提升2.7%;最后引入动态加权策略(Dynamic Weighting Strategy, DWS),通过自适应调整任务权重解决收敛不同步问题。

关键技术方法
研究采用ResNet50作为骨干网络,conv1-conv4层提取共享低阶特征,conv5层集成WSGSA模块实现组特征增强。在CelebA(含20万张标注40种属性的图像)和LFWA(13,233张多姿态人脸)数据集上验证,通过CGFF模块的通道注意力机制实现跨组特征交互,配合DWS策略平衡任务优化。

研究结果

  1. 网络架构创新
    WSGSA模块通过1×1卷积核实现参数共享,相比传统MTN减少68.3%参数;CGFF模块采用通道注意力机制,使"眼镜"与"帽子"等关联属性组的特征交互效率提升41%。

  2. 数据集验证
    在LFWA数据集上,FAR-AMTN以92.1%准确率超越Slim-CNN(89.3%)和FaRL(90.7%),参数量仅分别为二者的1/5和1/8。CelebA测试中,"年轻"、"微笑"等主观属性识别率提升显著,证明CGFF对语义关联属性的增强作用。

  3. 动态优化表现
    DWS策略使各任务损失尺度标准差从0.47降至0.12,有效缓解过拟合现象。消融实验显示,移除DWS会导致"胡子"等稀疏属性识别率下降12.6%。

结论与意义
该研究开创性地将注意力机制与特征融合引入FAR领域,FAR-AMTN模型在参数量减少75%的前提下实现性能突破。其价值体现在三方面:技术上,WSGSA-CGFF架构为多任务学习提供可扩展框架;理论上,证实了属性间语义关联对模型泛化能力的关键影响;应用上,轻量化设计使其更适合移动端部署。研究团队指出,未来可探索三维人脸数据与视频时序特征的融合,进一步拓展模型边界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号