编辑推荐:
多模态情感识别在人机交互等领域意义重大,但面临信号对齐和设计高效融合分类器等难题。研究人员提出 GLIFCVT 框架开展相关研究,实验表明该模型在准确率和能效上优于现有方法,为多模态情感识别发展提供新方向。
在当今数字化时代,人机交互变得越来越普遍,无论是智能客服、智能教育系统,还是自动驾驶中的人机界面,都离不开对人类情感的精准识别。多模态情感识别(Multi-modal emotion recognition)作为人机交互领域的关键研究方向,能够融合面部表情、语音、文本和生理信号等多种信息来判断情感状态,具有广泛的应用前景。然而,多模态情感识别面临着诸多挑战。一方面,不同模态的信号存在异质性,比如采样率不同、信号特征差异大,这使得信号对齐成为难题;另一方面,设计准确且节能的多模态融合分类器也颇具挑战,现有方法在处理模态不一致、抗噪声能力以及特征交互优化等方面都存在不足。因此,开展更有效的多模态情感识别研究迫在眉睫。
为了解决这些问题,相关研究人员开展了关于多模态情感识别的研究,并取得了一系列成果,相关论文发表在《Digital Signal Processing》上。
研究人员采用了多种关键技术方法。首先,对 EEG 信号运用群分解(SWD)和短时傅里叶变换(STFT)进行处理,从多种模态数据中提取热图特征。然后,利用离散小波变换(DWT)对齐这些特征,并通过交叉模态语义交互进行融合。此外,研究人员提出了门控泄漏积分发放卷积视觉 Transformer(GLIFCVT)分类器,还设计了结合 Focal 和 Dice 损失的新损失函数,以解决类别不平衡问题。
研究结果主要通过以下几个实验得出:
- CMU-MOSEI 数据集实验:在多模态情感分析任务中,GLIFCVT 框架使用 Acc-7、Acc-2、F1 分数、平均绝对误差(MAE)和皮尔逊相关系数(Corr)等指标进行评估。结果显示,该模型在多个评估指标上表现出色,在 Acc-7、Acc-2 和 F1 分数上取得最高性能,在 MAE 和 Corr 上获得第二好的结果。消融实验表明,模型中的小波阈值模块、脉冲卷积位置编码模块和 GLIF 模块都对性能有重要贡献,去除或替换这些模块会导致性能显著下降。同时,研究还发现小波阈值的值和函数类型对模型性能有影响,在阈值为 5 且使用f4小波函数时,模型性能最佳。
- MER 数据集实验:在 MER 数据集的实验中,分别使用四模态(音频、文本、图像和 EEG 信号)和三模态(音频、文本和图像)数据进行情感分类。结果表明,多模态融合方法在有阈值的情况下表现优于任何单一模态,添加 EEG 模态后整体准确率有所提升,验证了 GLIFCVT 框架中自适应交叉模态脉冲门控注意力融合和小波阈值处理的有效性。
- MELD 数据集实验:在 MELD 数据集的 3 类和 7 类情感分类任务中,GLIFCVT 模型的 F1 分数分别达到 75.34% 和 67.46%,超过了所有基线模型,展示了该模型在动态对话情境下多模态情感识别的有效性和鲁棒性。
- 课堂场景实验:在课堂场景实验中,研究人员利用 Img2pose、Dbface 和 YOLOv5 三种模型提取面部和手势特征,将其作为不同模态进行分析。结果显示,多模态融合模型在有阈值的情况下准确率达到 94.6%,优于单一模态模型,证明了非生理信号在识别学生参与度和情感方面的有效性,也表明自适应交叉模态门控注意力融合和小波阈值处理在实际应用中的优势。
研究结论和讨论部分指出,GLIFCVT 框架通过对 EEG 信号的处理以及对所有模态热图特征的离散小波变换,有效地对齐、融合和分类多模态特征。该框架使用的脉冲门控注意力机制优化了信息集成,结合的 Focal 和 Dice 损失函数减轻了类别不平衡问题,并且能够实现轻量级和节能计算,适用于实际应用。实验结果也充分证明了该方法在准确性和效率上优于现有方法。这一研究成果对于推动人机交互领域的发展具有重要意义,为实现更精准、更智能的人机交互提供了有力支持,有望在智能教育、智能交通等多个领域得到广泛应用,进一步提升用户体验和系统性能。