LORT:用于单声道语音增强的局部精炼卷积和泰勒变换器

《Speech Communication》:LORT: Locally refined convolution and taylor transformer for monaural speech enhancement

【字体: 时间:2025年10月03日 来源:Speech Communication 3

编辑推荐:

  语音增强模型LORT结合Taylor Transformer与局部卷积模块,通过空间-通道增强注意力机制和细粒度特征建模提升性能,仅需960,000参数即在VCTK+DEMAND和DNS数据集上达到SOTA水平。

  在语音增强领域,提升性能的同时保持低参数量和计算复杂度一直是一个重要的挑战。语音增强作为语音处理的关键技术,旨在提高语音信号在噪声环境中的清晰度和可理解性,广泛应用于电信系统、助听器、自动语音识别(ASR)和多媒体制作等多个重要领域。其核心目标是通过去除环境噪声,恢复干净的语音信号,同时保留语音的频谱-时间特征。语音增强的实现通常可以分为时域方法和时频域方法两大类。

时域语音增强主要采用自适应滤波等技术,直接对原始语音信号进行处理。这类方法的优势在于计算效率高和能够较好地保留语音的相位信息,但在非平稳噪声环境下,由于滤波器的系数是固定的,因此其性能受到一定限制。相较之下,时频域方法则通过短时傅里叶变换(STFT)将语音信号转换为时频表示,以便分别分析语音的幅度和相位成分。这种技术能够利用频率特性实现噪声抑制,但同时也引入了相位失真的问题。因此,如何在时频域方法中有效解决相位失真,成为语音增强研究中的一个重要方向。

传统的语音增强方法主要依赖于统计信号处理技术,其中最具代表性的研究是Ephraim和Malah(1985)提出的最小均方误差(MMSE)估计器。该方法基于语音和噪声信号的高斯分布假设,对语音的频谱进行估计。尽管MMSE算法在平稳噪声环境下表现良好,但其性能受到先验信噪比(SNR)估计准确性的影响,尤其是在非平稳噪声条件下,容易产生音乐噪声和语音质量下降的问题。另一种经典方法是维纳滤波(Lim和Oppenheim,1978),它通过构造最优增益函数来实现语音增强,但这种方法在动态声学环境中容易出现相位估计偏差和残余噪声问题。此外,频谱减法(Boll,1979)作为一种计算效率较高的增强技术,通过直接从噪声语音频谱中减去噪声估计来实现语音增强,但这种方法容易因过度减去而产生频谱失真和人工噪声。

近年来,随着深度学习的快速发展,语音增强领域迎来了新的变革。数据驱动的噪声建模方法在性能上取得了显著提升。早期的研究(Pandey和Wang,2019;Ouyang等,2019)主要采用卷积神经网络(CNN)架构,这些方法在局部频谱特征提取方面表现出色,相较于传统的信号处理方法有了显著的进步。然而,CNN的局部感受野限制了其在建模语音信号长期时序依赖性方面的表现,因此研究人员开始探索更具表达力的网络架构。

为了解决这一问题,研究人员开发了循环神经网络(RNN)及其更高级的变体——长短期记忆网络(LSTM)。这些架构通过引入门控机制和顺序递归连接,能够更有效地建模长距离时序依赖性,从而显著提升语音增强在非平稳噪声环境中的鲁棒性。例如,CRN(Tan和Wang,2018)通过将卷积层与循环结构相结合,实现了联合时频特征学习。DCCRN(Hu等,2020)进一步引入了复数运算,以增强频谱处理能力。DCCRN+(Lv等,2021)则结合了复数时频LSTM和子带处理,以减少神经网络带来的失真。尽管这些方法在语音增强性能上有所提升,但RNN类方法的序列计算特性仍然对计算效率和可扩展性提出了限制,从而阻碍了其在实时应用中的部署。

随着Transformer架构的出现(Vaswani等,2017),语音增强领域迎来了新的突破。Transformer通过自注意力机制实现了对全局上下文信息的并行建模,从而显著提升了计算效率并取得了优异的增强效果。例如,SE-LMA-Transformer(Liang等,2024)利用自注意力机制学习语音信号的全局结构特征。Conformer(Gulati等,2020)和SE-Conformer(Kim和Seo,2021)则创新性地将CNN与Transformer相结合,从而实现了对局部特征和全局依赖性的协同建模。然而,这些方法在联合捕捉语音的时序动态和频谱结构方面仍然存在一定的挑战,从而限制了其增强性能和鲁棒性。

基于上述研究挑战,Dang等(2022)提出的两阶段Transformer架构部分缓解了信息感知不全的问题,通过时频交替建模策略实现了更全面的特征提取。随后,DNSIP(Li等,2025)等研究进一步优化了中间增强层结构,从而提升了系统性能。然而,这些性能提升往往伴随着计算复杂度的显著增加。当前最先进的模型如MP-SENet(Lu等,2023)通常需要超过64个输入通道才能达到最佳性能,这在资源受限的环境中大大限制了其实际应用。此外,近期的研究(Wang等,2024)指出,传统的两阶段方法通常只在频率轴上进行降维处理,这种单一尺度的特征处理方式难以充分捕捉多分辨率下的输入特征,从而限制了模型性能的进一步提升。

为了克服这些挑战,我们之前的工作(Lin等,2024)提出了MUSE网络,该网络创新性地结合了子二次复杂度的Taylor多头自注意力(T-MSA)机制与U-Net框架(Ronneberger等,2015),有效缓解了传统自注意力机制中由于序列长度和多输入通道带来的高计算开销问题。通过将Taylor-Transformer应用于多尺度信息的捕捉,MUSE能够在仅使用16个输入通道的情况下实现较高的性能和较低的计算复杂度。然而,深入分析表明,MUSE中的注意力机制主要关注于学习频谱层面的长距离、粗粒度的全局依赖性,而其在时频域中捕捉细粒度局部特征的能力相对有限,这在一定程度上限制了模型的性能。

基于上述研究挑战,作为我们之前会议论文(Lin等,2024)的扩展和增强版本,本研究提出了LORT,这是一种轻量级的单通道语音增强模型,能够在仅使用16个输入通道的情况下实现出色的性能。具体而言,我们设计了局部细化卷积(LRC)模块,该模块集成了卷积前馈网络(CFN)、时频密集局部卷积(TF-DLC)和门控单元,从而显著提升了局部特征建模的能力。此外,我们还提出了空间-通道增强注意力(SCEA)机制,该机制能够协同优化通道和空间维度,从而显著增强了Taylor-Transformer的全局建模能力,并缓解了MUSE中存在的局限性。

本研究的主要贡献可以总结如下:

- 我们引入了一种新型的LRC模块,该模块协同整合CFN、TF-DLC和门控单元,以有效解决MUSE在细粒度特征学习方面的不足。
- 我们开发了一种SCEA分支,该分支能够实现通道和空间维度的协同优化,从而增强Taylor-Transformer的全局建模能力。
- 通过将LRC和SCEA整合到增强的Taylor-Transformer框架中,并结合U-Net的多尺度融合结构,我们构建了一个高效且轻量的LORT模型。
- 在多个基准数据集上的综合实验表明,与之前最先进的方法相比,LORT在显著减少参数和计算成本的情况下,实现了可比或更优的增强性能。

本论文的其余部分组织如下:第二部分描述了语音增强领域中的研究问题。第三部分详细介绍了我们提出的LORT模型,包括其核心架构、创新模块和技术实现细节。第四部分介绍了实验设置,涵盖数据集组成、评估指标、基线方法和实现细节。第五部分展示了全面的实验结果,包括消融研究和与之前最先进的方法的比较。最后,第六部分总结了本研究的成果,并讨论了未来的研究改进和应用前景。

语音增强的核心挑战在于如何在噪声环境下准确恢复语音信号,同时保持其频谱-时间特征。为了实现这一目标,LORT结合了局部细化卷积和空间-通道增强注意力机制,以有效捕捉语音信号的多尺度信息。在处理噪声语音输入时,LORT首先通过STFT获得语音的幅度谱和相位谱,形成输入特征。随后,这些特征被输入到中间特征空间中进行处理。在这一过程中,LORT采用了多分辨率的T-MSA模块,并通过交替的下采样和上采样操作进行处理,从而实现了对全局信息的捕捉和局部细节的优化。

在模型架构方面,LORT采用了U-Net类似的编码器-解码结构,其编码器仅包含16个输出通道。这种设计有效降低了模型的参数量和计算复杂度,同时保持了对多尺度信息的处理能力。在解码阶段,LORT对增强后的幅度谱和相位谱进行独立解码,并通过复合损失函数进行优化。该损失函数综合考虑了幅度、复数、相位、判别器和一致性目标,从而实现了对语音信号的全面增强。

在实验部分,我们使用了两个基准数据集:VCTK+DEMAND和DNS Challenge 2020。VCTK+DEMAND数据集是一个混合数据集,旨在促进全面的语音增强研究。该数据集中的干净语音数据来源于VoiceBank语料库,具有高质量的录音,并涵盖了多样化的说话人。DNS Challenge 2020数据集则提供了更为复杂的噪声环境,用于评估语音增强模型在实际应用中的性能和鲁棒性。

为了评估LORT的性能,我们首先进行了全面的消融研究,以分析模型各个组件对整体效果的影响。随后,我们在VCTK+DEMAND数据集上与多个经典基线方法进行了比较,以评估其在多样化真实噪声环境下的通用语音增强能力。最后,为了进一步验证LORT的鲁棒性和可扩展性,我们在DNS Challenge 2020数据集上进行了广泛的实验。

实验结果表明,LORT在保持低参数量和计算复杂度的同时,实现了与之前最先进的方法相当或更优的增强性能。这主要得益于其创新的LRC模块和SCEA机制,这些模块有效提升了对局部特征和全局信息的建模能力。此外,LORT的复合损失函数也显著增强了模型的优化效果,使其在多个任务中表现出色。

在实际应用中,LORT的轻量设计使其能够更高效地部署在资源受限的设备上,如移动设备和嵌入式系统。这种模型不仅能够在噪声环境下保持语音的清晰度和可理解性,还能够有效处理多分辨率的输入特征,从而提升模型的整体性能。LORT的鲁棒性使其在非平稳噪声环境中表现良好,能够适应多种噪声条件,包括飞机驾驶舱、紧急响应系统和智能家居设备等。

综上所述,LORT在语音增强领域展现出了重要的应用前景。通过结合局部细化卷积和空间-通道增强注意力机制,LORT在保持低参数量和计算复杂度的同时,实现了对语音信号的高效增强。这种模型不仅能够有效处理噪声环境下的语音信号,还能够在多种实际应用中保持良好的性能和鲁棒性。未来的研究可以进一步优化LORT的模块结构,以提升其在更复杂噪声环境下的增强能力,同时探索其在其他语音处理任务中的应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号