基于U-Net-DCL深度神经网络模型的年龄与听力损失对并发元音识别影响的研究

《IEEE Access》:A Deep Neural Network Model for Understanding the Effects of Age and Hearing Loss on Identification of Two Overlapping Vowels

【字体: 时间:2025年12月09日 来源:IEEE Access 3.6

编辑推荐:

  本文推荐一项创新性研究:为解决年龄增长和听力损失(HL)如何影响人类在复杂听觉场景下识别并发元音的问题,研究人员开发了统一深度神经网络(DNN)模型UNet-DCL(U-Net结合扩张卷积层和多任务学习)。该模型通过模拟年轻正常听力(YNH)、老年正常听力(ONH)和老年听力损失(OHI)人群的听觉神经(AN)响应,首次成功预测了三类人群在不同基频(F0)差异下的双元音和单元音识别正确率。结果表明模型评分与行为数据高度吻合(χ2值分别为1.012/1.768/1.112),显著优于现有F0-seg和TDNN-MTL模型,为听觉计算建模提供了新视角。

  
在喧嚣的鸡尾酒会中,人类听觉系统能够神奇地聚焦特定说话声——这种现象被称为"鸡尾酒会问题"。当多个说话声同时出现时,人耳依赖基频(F0)差异来分离和识别不同声源。并发元音识别实验是研究这种能力的经典范式,通过呈现两个重叠的合成元音(具有相同时长和强度但不同F0)来考察听觉分离机制。
如图1所示,当两个元音F0相同时(0 Hz条件),识别仅依赖共振峰频率差异,难度较高;当F0差异增大至26 Hz时,谐波结构分离为识别提供额外线索。行为研究表明,年轻正常听力(YNH)者的识别正确率随F0差异增大而提高,在3 Hz以上渐近饱和;而老年正常听力(ONH)和老年听力损失(OHI)者的表现显著下降。然而,现有计算模型难以统一预测三类人群的识别表现,特别是缺乏能够同时捕捉年龄和听力损失效应的深度神经网络架构。
为解决这一挑战,研究人员在《IEEE Access》发表了一项创新研究,开发了名为UNet-DCL的统一深度神经网络模型。该模型首次整合了U-Net架构、扩张卷积层(DCL)和多任务学习(MTL),通过模拟不同生理状态的听觉神经响应,成功预测了三类人群在不同F0差异下的并发元音识别能力。
关键技术方法包括:1)使用生理真实的听觉神经(AN)模型生成YNH、ONH和OHI三类人群对并发元音的神经放电率(ONH模型模拟内淋巴电位(EP)降低和听神经同步损失(CS),OHI模型额外加入外毛细胞(OHCs)和内毛细胞(IHCs)功能损伤);2)构建UNet-DCL网络架构(包含5个编码器块、扩张卷积层、4个解码器块和多任务输出),输入为100个特征频率(CF)的时域放电率数据;3)采用多任务学习同时预测主导元音和隐性元音,通过加权损失函数优化模型;4)使用单一F0差异(6 Hz)的YNH数据训练,测试时泛化至17个条件。
模型训练与验证
模型在YNH组6 Hz F0差异数据上训练(2500个样本),通过早停法在92轮终止训练。验证损失与训练损失收敛一致,未出现过拟合。识别阈值设定为39(YNH/OHI)和36(ONH),使模型评分与行为数据匹配。
并发元音识别结果
UNet-DCL模型在双元音识别任务中表现出色:YNH组评分随F0差异增大而提高,在3 Hz以上饱和(图6A方框),与行为数据(钻石)高度一致;ONH和OHI组评分分别呈现与年龄和听力损失相符的下降趋势(图6B-C)。卡方检验显示模型与行为数据的拟合度(χ2= 1.012/1.768/1.112)显著优于F0-seg模型(17.190/4.420/18.111)和TDNN-MTL模型(3.880)。
单元音识别与F0益处分析
模型在单元音识别任务中同样精准:三类人群的评分均独立于F0差异(图6D-F),与行为数据吻合。F0益处(26 Hz与0 Hz条件评分差)计算显示,UNet-DCL预测值(YNH:36%, ONH:24%, OHI:12%)与实测值(32%, 22%, 7%)趋势高度一致,显著优于对比模型。
讨论与意义
本研究首次建立了一个统一DNN架构,成功量化了年龄和听力损失对听觉场景分析的复合影响。通过将耳蜗生理变化(EP降低、CS、毛细胞损伤)映射至神经响应退化,再经由UNet-DCL解码,模型揭示了中枢听觉处理如何利用退化时空线索完成声源分离。扩张卷积层对捕捉长时程时间动态至关重要,多任务学习则有效协调了双元音识别中的主次关系。
该模型的突破性在于:1)仅用单一F0差异数据训练即可泛化至多条件多人群;2)网络组件(卷积层、批归一化等)具有听觉皮层处理的生理似然性;3)为个性化听力康复设备开发提供了计算框架。未来工作可扩展至自然语音环境、个体化病理参数建模,以及结合小样本学习技术提升泛化能力。
这项由印度Vellore理工学院和GITAM理工学院合作完成的研究,通过深度融合听觉生理模型与深度学习,为理解老年性听力损失的认知机制开辟了新途径,标志着计算听觉场景分析研究的重要进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号