基于机器学习的嘈杂环境语音听力测试自动开发:创新突破与应用前景

【字体: 时间:2025年04月16日 来源:Scientific Reports 3.8

编辑推荐:

  为解决传统嘈杂环境语音测试开发资源密集、在中低收入国家难以普及的问题,研究人员开展了 “Automatic development of speech-in-noise hearing tests using machine learning” 的研究。结果显示 Aladdin 测试特异性达 84%、敏感性达 100% ,与传统测试相似,该研究为听力测试开发带来新方向。

  在日常生活中,听力对于人们的交流和生活质量至关重要。然而,对于有听力损失的人来说,在嘈杂环境中理解语音成为了一项巨大的挑战,这严重影响了他们的日常沟通。传统的嘈杂环境语音测试(speech-in-noise tests)是评估听力损失、诊断听力问题以及评估助听器和人工耳蜗性能的重要手段。但开发这些测试需要大量的资源,包括专业的录音设备、训练有素的说话者和听话者,以及隔音的测试环境等,这使得它们在低中收入国家难以广泛应用。为了改变这一现状,来自荷兰阿姆斯特丹大学医学中心(Amsterdam UMC)、美国辛辛那提儿童医院医疗中心、英国曼彻斯特大学等多个机构的研究人员开展了一项研究,旨在利用人工智能(Artificial Intelligence,AI)技术实现嘈杂环境语音听力测试的自动化开发。该研究成果发表在《Scientific Reports》上,为全球听力损失的筛查和治疗带来了新的希望。
研究人员采用了多种关键技术方法。首先,利用文本转语音(Text-to-Speech,TTS)技术生成合成语音材料,其中选用 Google Cloud TTS 生成多种语言的语音材料。其次,运用自动语音识别(Automatic Speech Recognition,ASR)技术来确定使合成数字在感知上达到平等所需的电平校正(Level Corrections,LC)。在实验过程中,使用了不同的 ASR 系统进行测试和比较,最终选定 FADE ASR 系统用于创建 Aladdin 测试。

研究结果如下:

  1. 合成语音材料的主观质量评估:研究人员选取了 50 名来自不同国家的母语使用者,对合成语音和原始语音材料的主观质量进行评估。通过让参与者在安静和有低水平背景噪音的环境下,使用 5 分制平均意见得分(Mean Opinion Scale,MOS)量表对语音质量进行评分。结果显示,合成语音和自然语音的 MOS 得分大多在 4 分以上,表明合成语音材料不仅适用于嘈杂环境语音测试,也适用于安静环境下的语音测试,其主观质量与自然语音相当。
  2. 自然和合成数字的语音识别功能比较:24 名母语为荷兰语的正常听力成年人参与实验,研究人员向他们呈现不同信噪比(Signal-to-Noise Ratio,SNR)下的合成和自然荷兰数字,测定其语音识别功能。结果发现,自然和合成语音在数字可懂度方面没有显著差异,它们的平均数字噪声测试(Digits-in-Noise,DIN)语音识别阈值(Speech Recognition Threshold,SRT)和语音识别功能斜率相似。同时,通过人类听众实验获得的电平校正与合成语音的电平校正之间存在很强的相关性。
  3. 通过 ASR 确定电平校正:研究人员评估了三种现成的基于云的 ASR 系统(Google Cloud ASR、Microsoft Azure Bing Speech API、IBM Watson Speech to Text)和 FADE ASR 系统。结果显示,基于云的 ASR 系统生成的语音识别功能与人类评估结果相比,具有更高的 SRT 和更陡峭的斜率,不太适合用于 Aladdin 测试。而 FADE ASR 系统与人类得出的电平校正之间有很强的相关性,更适合用于估计电平校正。
  4. Aladdin 测试与原始 DIN 测试的比较:28 名正常听力和 20 名听力损失的荷兰语使用者参与实验,他们分别进行荷兰语和英语的 Aladdin 测试以及相应的参考 DIN 测试。结果表明,Aladdin 测试和参考 DIN 测试的 SRT 之间存在很强的相关性,Aladdin 测试对听力损失参与者的分类准确率达到了 100%,特异性为 84%,与参考 DIN 测试的性能相似。

研究结论和讨论部分指出,Aladdin 研究成功实现了自动生成可靠的荷兰语和英语数字噪声测试。该测试使用合成语音,并通过 ASR 系统使数字在感知上达到平等,测试特性与传统参考测试相似。Aladdin 方法不仅简化和缩短了 DIN 测试的开发过程,还为不同语言的 DIN 测试开发提供了通用指南,有望在资源有限的低中收入国家推广应用。然而,研究也存在一些局限性,例如合成语音的带宽有限,可能无法捕捉所有高频信息;研究仅评估了英语水平,可能存在参与者英语水平不足的情况等。未来需要进一步研究在更多语言中创建和验证 Aladdin 测试,探索其在其他语音识别测试中的应用,以及改进 ASR 系统以更好地模拟人类听觉行为。总的来说,这项研究为听力测试领域带来了创新和突破,为全球听力损失的筛查和治疗提供了更高效、便捷的方法,具有重要的临床和社会意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号