基于单模态与多模态标注联合学习的音视频情感识别新方法

《IEEE Open Journal of Signal Processing》:Jointly Learning From Unimodal and Multimodal-Rated Labels in Audio-Visual Emotion Recognition

【字体: 时间:2025年12月01日 来源:IEEE Open Journal of Signal Processing 2.7

编辑推荐:

  本研究针对传统音视频情感识别(AVER)系统忽略不同模态刺激下情感感知差异的问题,提出了一种两阶段训练策略,通过联合利用音频单独、视频单独和音视频多模态标注信息。实验在CREMA-D数据库上验证了该方法的有效性,显著提升了Macro-F1(0.772)和Weighted-F1(0.767)得分,并改善了模型校准度(Brier Score降低),同时系统评估了模型在不同人口统计学特征上的性能偏差与公平性,为人机交互(HCI)中更精准、公平的情感计算提供了新思路。

  
情感,作为人类交流的核心组成部分,其自动识别技术对于推动人机交互(Human-Computer Interaction, HCI)的发展至关重要。音视频情感识别(Audio-Visual Emotion Recognition, AVER)旨在通过分析人们说话时的声音信号和面部表情来识别其情感状态,是情感计算(Affective Computing)领域的一个热门研究方向。然而,当前大多数AVER系统存在一个根本性的局限:它们通常使用统一的“音视频”标签作为监督信号,即标注者在观看完整的音视频片段后给出一个综合的情感标签。这种做法简化了问题,但却忽略了人类情感感知的一个关键特性——我们对情感的解读会因所接收到的信息模态不同而产生差异。例如,仅听声音(音频单独刺激)或仅看面部(视频单独刺激)所感知到的情感,可能与同时观看音视频(多模态刺激)的感知有所不同。这种因刺激条件不同而导致的情感感知差异,在心理学研究中已被证实,但如何在计算模型中有效利用这些差异化的感知信息,以提升AVER系统的性能,仍是一个有待深入探索的课题。
为了解决上述问题,由Lucas Goncalves、Huang-Cheng Chou、Ali N. Salman、Chi-Chun Lee和Carlos Busso组成的研究团队在《IEEE Open Journal of Signal Processing》上发表了一项创新性研究。他们质疑传统单一音视频标签的合理性,并提出一个核心假设:如果AVER模型能够同时学习来自音频单独、视频单独以及音视频多模态刺激下所获取的标注信息,是否能够更全面地捕捉情感表达的细微差别,从而提升识别性能?为了验证这一假设,研究人员设计并实现了一种新颖的两阶段训练方法。
为了开展研究,研究人员主要运用了几项关键技术:首先,他们选择了CREMA-D情感数据库,这是目前唯一同时包含音频单独、视频单独和音视频多模态情感标注的公开数据集;其次,在特征提取方面,音频特征采用了性能优异的WavLM Large模型进行提取,视觉特征则使用了在AffectNet上预训练过的MobileNetV2模型来提取面部表情特征;第三,研究构建了基于Transformer的模型架构,包含独立的音频处理层、视觉处理层以及共享层,并采用了注意力统计池化(Attentive Statistics Pooling, AS-Pool)等技术进行特征聚合;第四,他们将情感识别任务定义为多标签分类问题,采用阈值(1/C,C为情感类别数)方法将标注者的评分分布转化为多热(multi-hot)标签,以容纳混合情感的存在;最后,除了常规的性能指标(Macro-F1, Weighted-F1),他们还系统评估了模型的校准度(Brier Score)、在不同人口统计学分组(性别、年龄、种族)上的性能偏差(Macro-F1 Bias)和公平性(Demographic Parity Difference, DPD; Equalized Odds Difference, EOD)。
IV. METHODOLOGY 与 V. EXPERIMENTAL SETTINGS
研究的方法论核心是提出的两阶段训练策略。第一阶段,模型分别训练音频分支和视觉分支。关键创新在于,每个分支(音频和视觉)的层被分成两组:一组使用对应的单模态标签(音频分支用音频单独标注,视觉分支用视频单独标注)进行训练,另一组则使用音视频多模态标签进行训练。这种做法旨在让模型既能捕捉到模态特有的情感线索,又能初步适应多模态语境下的情感表达。
第二阶段,冻结第一阶段训练好的音频和视觉层,引入并训练新的共享层。此时,模型的输入是第一阶段两个分支的输出,训练目标则完全使用音视频多模态标签。这样做的目的是让模型在共享层学习如何有效地融合来自两个模态的信息,从而做出最终的音视频情感预测。
VI. RESULTS AND ANALYSES
实验结果有力地支持了研究团队的假设。
首先,基线实验(模型1-9)表明,无论输入是单模态还是多模态,使用音视频多模态标签训练的模型(模型3, 6, 9)性能均优于使用对应单模态标签的模型(模型1, 2, 4, 5, 7, 8)。例如,在音频-视觉输入条件下(模型7-9),使用音视频标签(模型9)的Macro-F1得分(0.762)显著高于使用音频单独(模型7, 0.674)或视频单独标签(模型8, 0.719)的模型。这印证了多模态刺激能提供更丰富的情感信息。
其次,也是最重要的发现,提出的两阶段模型(模型12,即Proposed method)取得了最佳性能,其Macro-F1和Weighted-F1得分分别达到0.772和0.767,显著超过了所有基线模型以及几种先进的AVER模型(如VAVL, MulT, SFAV等)。与仅使用音视频标签进行两阶段训练的模型(模型10, AV elicited)和仅使用单模态标签进行第一阶段训练的模型(模型11, Mixed elicited)相比,模型12(结合了单模态和多模态标签)的性能最优,证明了联合学习不同刺激条件下的标注信息的有效性。
在模型校准方面,提出的方法(模型12)也表现出色,其平均Brier Score(BS)较低,表明模型预测的概率与真实情况更为吻合,可靠性更高。对不同情感类别的分析显示,该方法在识别愤怒(Anger, 0.792)、恐惧(Fear, 0.722)等情绪上表现良好。
在性能偏差和公平性评估中,研究发现AVER系统在女性说话者上的识别性能普遍优于男性,这主要是由于CREMA-D数据集中男性样本的情感分布极度不均衡(中性情感占比过高导致)。尽管如此,提出的方法(模型12)在男女性别组间的性能偏差(Macro-F1 Bias为1.86)相对较低,并且在种族组间的性能偏差(5.31)也优于大多数对比模型,其公平性指标(如EOD)也显示出一定的优势,表明该方法在提升性能的同时,也有助于缓解系统在不同人群上的性能差异。
VIII. CONCLUSION AND FUTURE WORK
本研究成功地挑战了AVER领域依赖单一音视频标签的传统做法。通过提出并验证一种创新的两阶段训练策略,该研究证明了联合利用来自音频单独、视频单独和音视频多模态刺激下获取的情感标注,能够显著提升音视频情感识别系统的性能、校准度,并在一定程度上改善其公平性。这项工作的重要意义在于,它更贴近人类情感感知的复杂性,为人机交互中开发更精准、更可靠的情感智能系统提供了新的思路和技术路径。未来,研究人员计划进一步探索如何在模型训练中融入偏差缓解技术,以更有效地提升AVER系统 across 不同人口群体的公平性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号