
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自适应掩码引导监督网络(AMGSN)在消除面部表情识别类别偏差中的创新应用
【字体: 大 中 小 】 时间:2025年06月30日 来源:Pattern Recognition 7.5
编辑推荐:
针对面部表情识别(FER)中存在的类别偏差问题,研究人员提出自适应掩码引导监督网络(AMGSN),通过注意力掩码生成器(ABMG)和动态掩码比例更新策略(MRUS)提升欠表达特征学习能力,结合去偏中心损失与对比损失优化,在RAF-DB和AffectNet数据集上分别达到89.34%和62.83%准确率,标准差仅0.0746和0.0484,显著提升模型公平性。
面部表情识别(Facial Expression Recognition, FER)作为人机交互领域的核心技术,其准确性直接影响情感计算、社交机器人等应用场景的可靠性。然而现有深度学习模型存在令人担忧的"表情歧视"现象——对"高兴"等常见表情识别准确率可达90%以上,而对"恐惧""悲伤"等表情的识别率骤降30%-40%。这种类别偏差不仅导致系统在自动驾驶等高风险场景产生误判,更可能引发性别、年龄等衍生歧视。更棘手的是,传统掩码自编码器(MAE)方法虽能提升特征提取能力,却完全忽视了表情数据分布不均衡、标注主观性强等本质问题,使得模型在真实场景中的公平性难以保障。
济南大学网络安全学院的研究团队在《Pattern Recognition》发表的研究中,创新性地将去偏思想引入MAE框架,提出自适应掩码引导监督网络(AMGSN)。该模型通过两阶段训练架构实现突破:预训练阶段采用注意力掩码生成器(ABMG)定位表情关键区域,配合基于重建损失的动态掩码比例更新策略(MRUS),使模型能自适应调整不同表情样本的掩码范围;微调阶段则创新性地融合去偏中心损失与对比损失,通过优化类别中心距离提升欠表达特征的区分度。研究选用RAF-DB和AffectNet两个主流野外采集数据集验证,特别关注模型在各类表情上的标准差表现。
关键技术方法包括:1)非对称编码器-解码器架构,编码器仅处理未掩码区域;2)ABMG模块通过注意力机制生成动态表情掩码;3)MRUS策略根据重建损失实时调整掩码比例;4)微调阶段联合优化去偏中心损失与对比损失。实验样本来源于RAF-DB(含15672张图像)和AffectNet(超44万张图像)两个公开数据集。
【Related work】
研究系统梳理了FER技术发展脉络,指出当前三类局限性:特征提取忽视数据分布不均衡、训练过程忽略个体偏差、难以克服标注主观性。相比传统数据重采样或代价敏感学习,AMGSN首次将MAE架构与去偏理论结合。
【Proposed model】
模型创新体现在三方面:动态掩码机制使"恐惧"等罕见表情的掩码比例自动提升15%-20%;轻量化解码器仅用30%参数量完成图像重建;去偏中心损失将类内距离压缩至传统方法的1/3。ABMG模块通过多头注意力定位眉间纹、鼻唇沟等表情关键区域。
【Experiments】
在RAF-DB测试集上,AMGSN将"悲伤"表情识别率从68.5%提升至82.3%,同时保持"高兴"表情89.7%的高准确率。AffectNet数据集上,模型在八类表情间的标准差降至0.0484,较基线方法降低60%。消融实验证实MRUS策略对"厌恶"等极少数表情的提升贡献率达41%。
【Conclusion】
该研究开创性地将动态掩码机制引入FER去偏领域,通过ABMG-MRUS协同框架使模型自动聚焦表情判别区域。实验证明AMGSN在保持总体准确率前提下,能显著缩小不同表情类别的识别差距。该方法为医疗诊断机器人、智能驾驶舱等需要公平表情理解的场景提供了可靠解决方案,其动态掩码思想也可拓展至其他存在类别偏差的视觉任务。未来研究可探索三维面部动作单元(AU)与AMGSN的结合潜力。
生物通微信公众号
知名企业招聘