随机森林在低资源乌尔都语语音情感识别中的性能评估与优化

《Scientific Reports》:Assessing random forest performance in low resource speech emotion recognition

【字体: 时间:2025年12月11日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对乌尔都语等低资源语言在语音情感识别(SER)领域的研究空白,系统评估了随机森林(RF)分类器结合梅尔频率倒谱系数(MFCC)的特征提取能力。研究人员基于SEMOUR+数据集,通过多轮超参数优化和交叉验证,在验证集上达到94.53%的准确率,并深入分析了MFCC特征的重要性排序。该研究为低资源语言的语音情感识别提供了可解释的机器学习方案,对推动多语言人机交互(HCI)技术的发展具有重要意义。

  
在人工智能蓬勃发展的今天,让机器理解人类情感已成为人机交互领域的核心挑战。语音情感识别(SER)技术通过分析语音信号中的情感特征,使计算机能够感知用户的情绪状态,在智能客服、远程医疗、在线教育等领域展现出巨大潜力。然而,当前研究大多集中于英语、汉语等高资源语言,对乌尔都语等使用人口众多但计算资源匮乏的语言关注严重不足。乌尔都语作为南亚地区的重要语言,拥有超过一亿的使用者,但其复杂的语音结构和丰富的文化内涵给情感识别带来了独特挑战。
针对这一研究空白,Muhammad Adeel等人开展了系统研究,评估随机森林(RF)分类器在低资源乌尔都语语音情感识别中的性能。研究人员采用SEMOUR+数据集,专注于快乐、悲伤和愤怒三种基本情绪,通过梅尔频率倒谱系数(MFCC)进行特征提取,构建了高效的识别模型。该研究成果发表于《Scientific Reports》期刊,为低资源语言的语音情感识别提供了重要技术参考。
研究团队采用了几项关键技术方法:首先使用SEMOUR+数据集中的乌尔都语语音样本,通过MFCC进行声学特征提取;接着采用随机森林分类器进行模型训练,并利用网格搜索(GridSearchCV)和随机搜索(RandomizedSearchCV)进行超参数优化;同时通过交叉验证和SHAP分析确保模型泛化能力和可解释性;最后在URDU数据集上进行跨数据库测试验证模型鲁棒性。
模型构建与优化
研究人员首先构建了基于随机森林的分类流程,包括数据预处理、特征提取、模型训练和评估四个阶段。通过提取13维MFCC特征,模型在验证集上达到了94.53%的准确率。混淆矩阵显示,模型对悲伤和愤怒的识别准确率分别达到95%和96%,科恩卡帕系数为0.918,表明模型具有极高的分类一致性。
特征重要性分析
通过排列重要性分析和SHAP力力图,研究发现特定MFCC系数在情感区分中起关键作用。图2展示了各MFCC特征的重要性排序,其中低阶MFCC系数对情感分类贡献最大,这与语音情感的主要特征集中在低频区域的理论相符。
泛化能力验证
为验证模型泛化能力,研究在URDU数据集上进行了跨数据库测试。结果显示,模型在未见数据上仍保持86.67%的验证准确率和80.00%的测试准确率,证明了该方法在真实场景下的实用性。图15展示了URDU数据集中各情感类别的音频时长分布,为后续分析提供了数据基础。
扩展实验与对比分析
研究进一步扩展到八种情感类别(愤怒、无聊、厌恶、恐惧、快乐、中性、悲伤、惊讶),通过特征工程优化和类别平衡技术,模型在更复杂任务上仍保持70.14%的测试准确率。图25-26展示了扩展特征集中最重要特征的排序结果,为特征选择提供了指导。
深度学习模型对比
为全面评估方法性能,研究还实现了时序卷积网络(TCN)进行对比实验。如表II所示,基础TCN模型在SEMOUR+数据集上达到62.84%的测试准确率,而增强版TCN通过学习率调度和结构优化,准确率提升至91.46%。图105-107展示了TCN模型的混淆矩阵和ROC曲线,为不同场景下的模型选择提供了参考。
跨语言验证
研究还使用波斯语ShEMO数据集进行了跨语言验证,结果显示随机森林模型在波斯语语音情感识别任务上达到66.9%的准确率,证明了该方法在多语言场景下的适应性。图120-124展示了在波斯语数据集上的分类结果,为跨语言语音情感识别研究提供了新思路。
本研究通过系统实验证明,随机森林分类器在低资源乌尔都语语音情感识别任务中表现出色,不仅达到了94.53%的验证准确率,还展现出良好的泛化能力和可解释性。特征重要性分析揭示了MFCC特征在情感区分中的关键作用,为特征选择提供了理论依据。与深度学习模型相比,随机森林在计算资源有限的情况下展现出独特优势,为低资源环境的实际应用提供了可行方案。
该研究的创新之处在于首次系统评估了随机森林在乌尔都语语音情感识别中的性能,并提供了详细的特征重要性分析。研究方法可扩展到其他低资源语言,对推动多语言人机交互技术的发展具有重要意义。未来工作将集中于扩大情感类别覆盖范围、融合多模态信息以及开发更高效的跨语言迁移学习方法,进一步提升低资源语言语音情感识别的性能和应用范围。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号