基于注意力引导双向时序感知网络的语音抑郁识别研究

【字体: 时间:2025年06月03日 来源:Digital Signal Processing 2.9

编辑推荐:

  为解决传统抑郁诊断方法依赖主观问卷、生理信号采集成本高的问题,研究人员提出AGBiTNet模型,通过BiTM模块捕获双向时序依赖和FAM模块提取多尺度频域特征,结合Huber与GE2E联合损失函数,在AVEC数据集上实现RMSE低至5.35的精准预测,为低成本、高隐私的抑郁辅助诊断提供轻量化解决方案。

  

抑郁障碍是全球范围内严重的心理健康问题,传统诊断依赖医生问诊和量表评估,易受患者主观隐瞒影响。虽然脑电(EEG)、心电图等生理信号能客观反映抑郁状态,但采集设备昂贵且操作复杂。相比之下,语音信号具有采集便捷、成本低廉的优势,研究表明抑郁患者的情绪波动会通过语音频谱特征(如基频抖动、共振峰偏移)显现。然而现有方法存在明显局限:手工提取的声学特征依赖专家经验,深度学习模型如CNN难以捕捉长时序依赖,LSTM对远距离特征建模不足,而Transformer又忽视了频域信息的特异性表达。

针对这些挑战,中国某高校团队在《Digital Signal Processing》发表研究,提出注意力引导双向时序感知网络(AGBiTNet)。该研究利用AVEC 2013-2017数据集,通过Mel频率倒谱系数(MFCC)将语音转化为时频特征,创新性地结合双向时序模块(BiTM)和频域注意力模块(FAM),并引入Huber损失与广义端到端(GE2E)损失的联合优化策略。关键技术包括:1) BiTM采用双向门控机制动态融合前后向时序特征;2) FAM通过并行一维卷积核(3/5/7尺度)加权关键频段;3) 使用GE2E损失增强跨数据集特征一致性。

Bi-directional Temporal-aware Module设计
BiTM模块通过双向门控循环单元(GRU)分别提取前向/后向时序特征,利用动态权重融合机制增强抑郁相关情绪波动捕捉能力。实验表明该模块使MAE指标较单一时序模型降低12.7%。

Frequency-aware Attention Module优化
FAM采用多尺度一维卷积核扫描MFCC特征,通过通道注意力机制突出抑郁敏感频段。在AVEC 2017数据集上,该模块使高频区(4-6kHz)特征权重提升23%,对应抑郁患者的发声颤抖特征。

联合损失函数效果验证
Huber损失(δ=1.0)约束回归精度,GE2E损失(边际α=0.5)优化特征空间分布。消融实验显示联合损失使跨数据集RMSE波动降低19.3%,显著提升模型鲁棒性。

研究结论表明,AGBiTNet在三个公开数据集上RMSE达9.45-5.35,模型参数量仅2.7M,兼具高精度与轻量化特性。该成果的创新性体现在:1) 首次实现时序-频域双分支协同建模;2) 通过GE2E损失解决临床数据分布差异问题;3) 为移动端抑郁筛查提供可行方案。讨论部分指出,未来可结合语音-文本多模态数据,并探索该模型在双相情感障碍等精神疾病中的泛化能力。研究获国家自然科学基金(61876112)和北京市自然科学基金(4242034)支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号