编辑推荐:
为解决微表情识别中存在的实时识别难、精度受挑战等问题,研究人员开展基于视觉 Transformer(ViT)的微表情识别研究。结果显示所提方法在多数据集上效果佳,能提升模型性能。这为相关领域应用提供有力支持。
在生活中,人们常常试图隐藏自己的真实情感,但脸上那些稍纵即逝的微表情,却如同内心情绪的 “泄密者”,悄然暴露着真实想法。微表情是持续时间极短(0.04 至 0.2 秒)的非自愿面部表情 ,能精准反映人们试图隐藏的真实情感和意图,在执法、医疗、心理研究等众多领域都有着不可忽视的重要作用。比如在医疗场景中,医生可以通过观察患者的微表情,察觉其情绪变化,辅助早期诊断精神健康问题;在手术过程中,关注手术团队成员的微表情,有助于及时调整情绪,保障手术顺利进行。
然而,微表情的短暂持续时间和微妙的面部运动变化,给实时识别和精准判断带来了巨大挑战。随着人工智能的发展,微表情识别技术虽取得一定进展,但仍面临计算效率低、数据集有限等难题。为了攻克这些难关,来自中国传媒大学计算机与网络空间安全学院、应急总医院肾内科、华北科技学院计算机学院的研究人员展开了深入研究 。他们提出了一种基于视觉 Transformer(ViT)的全新微表情识别方法,相关研究成果发表在《Scientific Reports》上。
研究人员主要运用了以下关键技术方法:首先构建了带有可学习绝对位置嵌入(LAPE)的分层 Transformer 网络(HTNet),增强模型捕捉细微面部特征的能力;其次提出基于熵的选择代理注意力(ESAAT)机制,在减少模型参数和计算量的同时,保持学习能力;最后利用扩散模型进行数据增强,扩充微表情样本规模 。研究中使用了 SMIC、SAMM、CASME III和 CAS (ME)3这四个广泛应用的微表情数据集。
实验方法
研究人员进行了多方面实验。在实验方法论上,旨在评估框架中 LAPE 模块、ESAAT 模块和基于扩散模型的数据增强技术这几个关键组件的有效性 ,同时将模型性能与当前最先进的方法作对比,并在多样数据集上评估其泛化能力。实验采用交叉熵作为损失函数,以 Adam 为优化器,学习率设为 5×10-5 ,训练 800 个 epoch。实验环境为运行 Ubuntu 20.04 LTS 系统,配备 Intel Xeon (R) Gold 6430 处理器、NVIDIA GeForce RTX 4090 GPU(24GB)和 120GB 内存,软件环境包含 Python 3.8 和 CUDA 11.3。
实验数据集
研究选用了四个常用微表情数据集:SMIC 包含 164 个微表情序列,分为积极、消极和惊讶三类;SAMM 有 133 个序列,情感类别相似;CASME II 包含 145 个序列,聚焦于自发微表情;CAS (ME)3规模最大,有 673 个序列,表情更丰富多样且生态效度高。
实验指标
由于微表情数据集中三类表情分布不均衡,研究采用未加权 F1 分数(UF1)和未加权平均召回率(UAR)作为评估指标。UF1 通过对各个类别的 F1 分数求平均,能客观评估模型在所有类别上的整体性能,防止数据量少的类别被忽视;UAR 计算每个类别的召回率后取平均,可衡量模型识别所有类别的能力,尤其适用于类别分布不均衡的数据集。
对比实验
研究人员将所提模型与 LBP-TOP、Bi-WOOF、OFF-ApexNet 等多个先进的微表情识别模型进行对比实验,采用 K 折交叉验证,结果显示该模型在准确率和效率上与现有方法相比表现出色,集成的 ESAAT 模块和数据增强技术在处理多样复杂表情时优势明显。
泛化实验
为评估模型的泛化能力,研究人员在 CAS (ME)3数据集上开展实验,采用两种评估策略。结果表明,模型对新数据的泛化能力良好,数据增强技术显著提升了模型性能。
消融实验
通过消融实验评估 LAPE 和 ESAAT 模块对模型整体性能的贡献。对比有无 LAPE 模块的模型性能,发现 LAPE 模块显著增强了模型捕捉空间关系的能力,提高了识别准确率;分析 ESAAT 模块在降低计算复杂度同时对精度的影响,发现它有效减少了模型参数,且保持了准确率。综合来看,LAPE 和 ESAAT 模块在平衡计算效率和模型表现力方面发挥了关键作用。
研究人员提出的结合 HTNet、LAPE、ESAAT 模块以及基于扩散模型的数据增强的微表情识别框架,显著提升了微表情识别的准确率和效率 。该框架在多个数据集上表现优异,展现出强大的泛化能力,为需要精准、可靠微表情识别的实际应用场景提供了有力支持。不过研究也存在一定局限性,未来研究可朝着提升模型实时推理能力和扩展多模态融合能力的方向展开,有望进一步推动微表情识别技术的发展,让这一技术在更多领域发挥更大的价值。