融合人格特征的语音情感识别新突破:PA-IEMOCAP数据集与TICN模型创新研究
《IEEE Transactions on Affective Computing》:Bridging Speech Emotion Recognition and Personality: Dataset and Temporal Interaction Condition Network
【字体:
大
中
小
】
时间:2025年12月02日
来源:IEEE Transactions on Affective Computing 9.8
编辑推荐:
本研究针对语音情感识别(SER)中个体差异影响情感表达的问题,创新性地标注了首个同时包含情感和人格特征的语音数据集PA-IEMOCAP,并提出时序交互条件网络(TICN)。实验证明,融合人格特征可将效价(valence)识别的CCC从0.698提升至0.785,在实用场景中使用预测人格特征仍能达到0.776的CCC,为个性化人机交互系统提供了重要技术支撑。
在人工智能与人机交互快速发展的今天,让机器准确理解人类情感已成为实现自然交互的关键挑战。语音情感识别(SER)技术通过分析语音信号中的情感特征,使计算机能够感知用户的情绪状态,在智能助手、医疗健康、车载系统等领域展现出广泛应用前景。然而,传统SER系统往往忽略了影响情感表达的关键因素——个体人格差异。心理学研究表明,人格特质会显著影响人们表达和管理情绪的方式,例如外向型个体倾向于更强烈地表达情绪,而神经质个体则更容易表现出负面情绪。
目前该领域面临两大瓶颈:一是缺乏同时包含情感和人格标注的标准化语音数据集,导致难以直接研究二者关系;二是在实际应用场景中,用户的真实人格信息通常不可获取。这些限制使得开发个性化、自适应的情感计算系统面临巨大挑战。
为突破这些限制,日本京都大学的研究团队在《IEEE Transactions on Affective Computing》上发表了创新性研究成果。他们首次对广泛使用的IEMOCAP语音情感数据集进行了大五人格(Big Five)标注,创建了PA-IEMOCAP数据集,并开发了时序交互条件网络(TICN)模型,有效融合人格特征提升情感识别性能。
关键技术方法包括:使用HuBERT-base模型进行语音特征提取,结合自动语音识别(ASR)任务增强语言信息建模;开发多任务学习框架同时优化情感识别和人格识别目标;提出TICN模型通过交叉注意力机制实现人格特征与语音特征的动态交互。研究基于10,039条语音样本,采用会话级人格标注和留一会话交叉验证策略。
研究结果方面,统计分析显示人格特质与情感表达存在显著相关性,其中开放性与效价呈现强正相关( PCC=0.70),神经质与效价呈负相关( PCC=-0.58)。模型实验表明,TICN-CA方法在效价识别上表现最优,CCC达到0.785,较基线提升12.5%。
人格识别实验发现会话级识别显著优于语句级,平均CCC从0.439提升至0.778。多任务学习框架虽能提升情感识别性能,但对人格识别改善有限。实用化验证表明,即使使用预测的人格特征,模型仍能保持0.776的CCC性能,且对人格识别误差表现出良好鲁棒性——当注入标准差0.8的高斯噪声时,性能仅下降5.4%。
结论部分强调,本研究首次实证验证了人格信息对语音情感识别的显著增强作用,解决了该领域长期存在的数据缺失和方法论挑战。PA-IEMOCAP数据集的发布为后续研究提供了重要基础,TICN模型则展示了如何有效利用人格特征提升情感识别性能。特别是在实际应用场景下,通过对话级人格预测和条件网络设计,系统能够在无需显式人格信息的情况下实现个性化情感识别,为人机交互系统的情感智能发展开辟了新方向。
未来工作可扩展到更自然的数据场景,探索多模态融合和跨文化适应性,进一步推动个性化情感计算的发展。这项研究不仅具有重要理论价值,也为开发更智能、更人性化的人机交互系统提供了实用技术方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号