基于多扩张卷积网络的语音情感识别研究成果显著

【字体: 时间:2025年03月11日 来源:Scientific Reports 3.8

编辑推荐:

  为解决语音情感识别(SER)难题,研究人员构建多扩张卷积网络模型,提升识别性能,意义重大。

  在当今数字化时代,人机交互越来越普及,但机器要像人类一样精准理解人类情感,仍面临诸多挑战。语音作为情感的重要载体,蕴含着丰富的情感信息,比如高兴时语调上扬、愤怒时语速加快。因此,语音情感识别(Speech Emotion Recognition,SER)成为了人工智能领域的热门研究方向,它能让机器更好地理解人类情感,在智能客服、心理健康诊断等众多领域有着广阔的应用前景。
然而,当前基于卷积神经网络(Convolution Neural Network,CNN)和频谱图的 SER 研究存在不少问题。一方面,扩张卷积神经网络中的网格化效应会导致信息丢失;另一方面,不同情感状态数据的不平衡使得模型性能不稳定,而且模型在不同数据集和说话人群体中的泛化能力也有限。为了攻克这些难题,来自奥克兰理工大学、南佛罗里达大学等机构的研究人员开展了深入研究,相关成果发表在《Scientific Reports》上。

研究人员提出了一种基于话语级频谱图学习的全新 SER 模型,该模型结合了多种先进技术,取得了令人瞩目的成果,为语音情感识别领域带来了新的突破。

在技术方法上,研究人员主要采用了以下几种关键技术:首先,将语音信号转换为 3D 频谱图,通过计算原始频谱图及其一阶差分(delta)、二阶差分(delta-delta)并进行拼接,增强了语音特征。其次,构建多扩张卷积神经网络结构,通过精心设计扩张率,有效避免了网格化效应,更好地提取情感特征。然后,运用空间金字塔池化(Spatial Pyramid Pooling,SPP)策略,从不同尺度提取特征,解决了频谱图尺寸不一致的问题。最后,引入常用于人脸识别的 ArcFace 损失函数,提高了模型的分类性能。研究人员使用了 IEMOCAP 和柏林情感语音数据库(EMODB)两个数据集进行实验,在实验过程中进行了大量参数调整和对比试验,以优化模型性能。

在研究结果方面:

  • 模型性能评估:研究人员通过在 IEMOCAP 和 EMODB 数据集上进行实验,以未加权准确率(Unweighted Accuracy,UA)为评估指标。在 IEMOCAP 数据集上,模型的 UA 达到了 67.9%;在 EMODB 数据集上,UA 高达 77.6%。这个结果表明,该模型在语音情感识别方面表现出色,优于许多先前的研究成果。
  • 消融实验分析:研究人员进行了消融实验,逐步添加模型中的各个组件,对比不同模型的性能。结果发现,将全局最大池化(Global Maximal Pooling,GMP)替换为 SPP 后,模型性能显著提升。这是因为 SPP 不仅能考虑全局特征,还能从不同尺度的频率 - 时间区域提取局部特征,让模型能更好地选择与情感相关的特征。此外,多扩张卷积结构相较于固定扩张率的卷积结构,在 IEMOCAP 数据集上能将 UA 提高约 2%,避免了网格化效应的同时利用了扩张卷积的优势。而 ArcFace 损失函数在两个数据集上都提升了模型性能,它通过减少类内距离、增大类间决策边界,增强了模型的判别能力,尤其在类别较多的 EMODB 数据集上效果更明显。
  • 模型适用性分析:研究人员还发现,模型对不同数据集的适应性有所不同。对于 IEMOCAP 数据集,由于其训练样本充足,模型在添加注意力机制后性能提升明显;而对于 EMODB 数据集,由于样本数量较少,增加模型复杂度(如使用扩张卷积和注意力机制)反而会降低性能。但总体而言,该模型能够处理不同时长的话语级语音频谱图,在实际应用场景中具有很大的潜力。

在研究结论和讨论部分,研究人员提出的多扩张卷积神经网络模型有效地解决了现有 SER 模型存在的问题,在多个方面展现出优势。一方面,模型通过动态调整扩张率,成功避免了信息丢失,提升了特征提取能力;另一方面,SPP 和 ArcFace 损失函数的结合,显著提高了模型在不同情感类别上的平衡性能和判别能力。虽然该模型取得了较好的成果,但仍存在一些局限性。例如,模型的泛化能力还需要在更多数据集(如 RAVDESS、CREMA-D 或 MSP-IMPROV)上进行验证;对于数据不平衡问题,还需要更细致的分类性能指标来评估模型。未来的研究可以从这些方面入手,进一步优化模型,提升其性能和适用性。同时,结合时间学习模型、探索数据增强策略以及融合语言信息等方向,也有望为语音情感识别研究带来新的突破。这项研究为语音情感识别领域提供了新的思路和方法,推动了该领域的发展,对促进人机交互技术的进步具有重要意义。

娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀

10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�

濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�

閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�

娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号

    閻㈢喓澧块柅姘辩翱瑜扳晜甯归懡锟� • 多功能纳米平台:开启肿瘤免疫治疗新篇章 • 《Cell》亚洲免疫细胞多样性研究:解锁健康与疾病的遗传密码