面向听力障碍人群的对话增强:CHiME9 ECHI挑战赛数据集构建与评估
《IEEE Data Descriptions》:Descriptor: Enhancing Conversations for the Hearing Impaired in the 9th Computational Hearing in Multisource Environments Challenge (CHiME9 ECHI)
【字体:
大
中
小
】
时间:2025年12月25日
来源:IEEE Data Descriptions
编辑推荐:
为解决听力障碍人群在嘈杂环境中难以理解对话的问题,研究人员开展了ECHI数据集构建研究。该研究通过记录四人在嘈杂自助餐厅环境下的对话,结合助听器(HA)和智能眼镜(Aria)麦克风信号、近讲(CT)参考信号及运动追踪数据,生成了29小时的高质量数据。该数据集为基于神经网络或信号处理的语音增强(SE)算法提供了训练与评估基准,是当前同类数据集中规模最大、场景最真实的资源,对推动辅助听力设备(AHD)技术发展具有重要意义。
想象一下,在一个热闹的咖啡馆里,背景是此起彼伏的交谈声、杯盘的碰撞声和嘈杂的音乐。对于听力正常的人来说,这或许只是生活的背景音,但对于全球约4.3亿患有听力障碍的人群而言,这却是一道难以逾越的鸿沟。他们佩戴的助听器(AHD)或人工耳蜗,在如此复杂的声学环境中往往表现不佳,导致用户难以听清对话,无法有效参与社交活动,甚至产生孤独感。
问题的核心在于,现有的语音增强(SE)技术,特别是基于机器学习的方法,严重依赖于高质量的训练数据。然而,当前的数据集存在诸多局限:要么是模拟生成的,缺乏真实感;要么是单句朗读,无法反映真实对话中说话人轮换的动态特性;要么是使用固定的麦克风阵列,与佩戴在头部、随身体移动的助听器或智能眼镜的拾音模式相去甚远。此外,许多数据集缺乏与噪声信号严格对齐的“干净”参考语音,这使得评估算法的性能变得困难。
为了填补这一空白,并为CHiME-9挑战赛任务2提供基准,由谢菲尔德大学、WSAudiology和Meta的研究人员组成的团队,共同构建并发布了ECHI数据集。该数据集旨在为开发能够从助听器或智能眼镜麦克风信号中提取并增强对话伙伴语音的系统提供支持。这项研究发表在《IEEE Data Descriptions》上,标志着在构建真实、大规模、多模态的对话语音数据集方面迈出了重要一步。
为了构建这一数据集,研究人员采用了严谨的数据采集与处理方法。首先,他们设计了模拟自助餐厅的声学场景,通过18个扬声器播放包含干扰语音、环境噪声和音效的复杂背景声。其次,他们招募了194名参与者,组成四人小组进行时长约36分钟的引导式对话。在数据采集方面,他们使用了多种硬件设备:助听器(HA)外壳(4通道)、Meta Aria智能眼镜(7通道)、近讲(CT)麦克风(单通道)以及Vicon运动追踪系统(用于记录头部位置和朝向)。此外,每位参与者还录制了“彩虹段落”的朗读音频,作为其声音的干净样本。在数据处理阶段,研究人员通过“拍板”信号对齐了不同设备的时钟,并利用运动追踪数据计算声学传播延迟,最终生成了与噪声信号严格对齐的干净参考语音。
为了模拟真实的自助餐厅环境,研究人员精心设计了背景声场景。房间的四个角落播放来自WHAM!数据集的扩散环境噪声,而另外14个扬声器则被分成7对,模拟周围其他桌的对话。这些对话对交替播放来自LibriSpeech或EARS数据集的语音,并混入了来自FSD50K数据集的咳嗽、打字、餐具碰撞等音效。为了增加挑战性,背景噪声的强度并非一成不变,而是通过算法控制,在4到7对对话扬声器之间随机切换,从而模拟真实环境中人群流动和噪声起伏的动态变化。
由于助听器(HA)、近讲(CT)麦克风、Aria眼镜和运动追踪系统使用不同的硬件和时钟,信号同步是数据处理的关键步骤。研究人员通过一个带有Vicon标记的“拍板”在桌上敲击,利用产生的声学脉冲和视觉冲击来对齐所有信号。对于Aria眼镜,由于内部时钟漂移,其信号会随着时间推移与MOTU声卡录制的信号产生线性偏移,研究人员在生成参考信号时对此进行了补偿。参考信号的生成是一个复杂的过程,首先对CT麦克风信号进行神经网络降噪,去除背景噪声和串扰;然后利用运动追踪数据计算声学传播延迟,并进行精细的交叉相关对齐,最终生成与HA或Aria麦克风信号严格对齐的单通道干净参考语音。
为了确保数据集的可用性和质量,研究人员进行了预实验,并根据反馈优化了背景场景的设计和噪声水平。最终的数据集包含29小时的音频,被划分为训练集(30个会话)、开发集(10个会话)和评估集(9个会话)。通过计算频率加权分段信噪比(fwSegSNR)和短时客观可懂度(STOI)等指标,验证了该数据集对语音可懂度具有显著的挑战性。例如,在开发集上,STOI得分在0.39到0.56之间,表明原始信号的可懂度较低,为语音增强算法提供了充分的改进空间。
ECHI数据集目前已在HuggingFace平台公开,包含训练集和开发集,评估集计划于2026年初发布。数据以WAV格式(音频)和CSV格式(运动追踪和元数据)存储。除了原始的HA、Aria和CT音频外,数据集还提供了经过处理的参考音频、参与者的干净语音样本、详细的会话元数据(如设备佩戴者位置)以及语音活动检测(SAD)分割后的片段元数据,为研究人员提供了全面的数据支持。
ECHI数据集的发布,为语音增强领域,特别是针对辅助听力设备的研究,提供了一个前所未有的宝贵资源。它不仅是当前同类数据集中规模最大的,更重要的是,它通过记录真实的多方对话、使用移动的助听器和智能眼镜麦克风、结合运动追踪数据,极大地提升了数据的真实性和生态效度。该数据集解决了现有资源在场景复杂性、数据规模和设备真实性方面的不足,为开发更鲁棒、更有效的语音增强算法奠定了坚实的基础。尽管该数据集在背景语音的自发性、声学环境的多样性等方面仍存在一定的局限性,但它无疑为未来的研究指明了方向,并有望显著推动辅助听力技术的进步,最终改善全球数亿听力障碍者的生活质量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号