HiGT-Fuse:一种用于自监督嚎叫检测和过滤的分层图变换器融合框架

《Knowledge-Based Systems》:HiGT-Fuse: Hierarchical Graph-Transformer Fusion Framework for Self-Supervised Howling Detection and Filtering

【字体: 时间:2025年11月13日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  实时音频中如何音检测与抑制方法研究,提出基于自监督对比式课程学习的层次化图Transformer融合框架HiGT-Fuse,通过多分辨率时频谱图构建动态可变拓扑图,元学习优化边函数适应时频特征变化,结合Transformer编码长时依赖,构建双流GRU控制器实时调整数字 notch滤波器参数,实验表明其F1-score达0.91,PESQ提升3.03dB,RTF为0.37x,优于传统和深度学习方法。

  音频信号处理一直是学术界和工业界关注的热点领域,尤其是在实时和开放麦克风的应用场景中,声音反馈问题尤为突出。声音反馈,通常被称为啸叫或尖啸,是由于麦克风和扬声器之间的声学回路所引起的,这不仅会降低音频质量,还会影响用户的使用体验和系统的稳定性。传统的啸叫抑制方法,如静态陷波滤波器、自适应取消或增益控制,虽然在一定程度上可以缓解啸叫问题,但它们往往存在响应速度慢、无法适应动态声学环境等缺陷。近年来,随着深度学习技术的发展,越来越多的研究开始尝试将学习方法引入音频异常检测,尤其是啸叫检测和抑制。然而,大多数现有的模型依赖于监督学习,这意味着它们需要大量的标注数据进行训练,这在实际应用中往往显得不够灵活和可扩展。

为了解决这些问题,本文提出了一种全新的方法,结合了图学习和时间建模,并引入了自监督对比训练。具体而言,我们提出了一种名为HiGT-Fuse的新型框架,该框架能够将音频频谱图表示为多尺度图,并通过Transformer层对时间变化的信息进行编码,从而实现无需标注数据的异常检测。HiGT-Fuse的设计灵感来源于最近在几何深度学习和表示学习方面的进展,但我们将其专门优化用于实时操作、环境泛化和自主控制的啸叫抑制任务。通过将多分辨率短时傅里叶变换(STFT)模块与图神经网络(GNN)和Transformer编码器相结合,HiGT-Fuse能够在保持音频质量的同时,高效地检测和抑制啸叫现象。

在本文中,HiGT-Fuse的核心思想是将音频信号建模为图结构,其中节点代表时间-频率网格,而边则表示节点之间的学习连接。这种图结构能够捕捉到音频信号中不同粒度的频谱动态,从而更全面地反映音频的特征。为了克服传统图结构固定的问题,我们提出了一种元学习的边函数,使得图结构能够根据音频内容动态调整。这种元学习机制使得模型能够适应不同的声学环境,提高其泛化能力。此外,我们还设计了一个对比课程学习流程,该流程通过逐步增强和双损失训练的方式,使得模型能够在没有标注数据的情况下学习到更复杂的异常模式。

HiGT-Fuse的另一个关键组成部分是自适应阈值的门控循环单元(GRU)异常评分机制,该机制能够在实时环境中识别和定位啸叫事件。一旦检测到异常,一个双流GRU滤波器控制器将动态调整数字陷波滤波器的参数,以实现对啸叫频率的精细和选择性抑制,同时尽量减少对相邻音频信号的影响。这种设计使得HiGT-Fuse能够在保持音频质量的前提下,实现高效、实时的啸叫抑制。

为了验证HiGT-Fuse的有效性,我们在多个数据集和声学条件下进行了实验。实验结果表明,HiGT-Fuse在检测准确率、适应速度和处理延迟方面均优于传统的信号处理方法和现有的深度学习模型。例如,在LibriSpeech、GWA、VCTK、REVERB和VoiceBank-DEMAND等数据集上,HiGT-Fuse的平均F1分数达到了0.91,显著高于其他方法。此外,在感知语音质量(PESQ)评估中,HiGT-Fuse的改善幅度达到了3.03,信号失真比(SDR)提高了3.03 dB,实时因子(RTF)为0.37x,这意味着HiGT-Fuse的处理速度比实时快约2.7倍。这些结果表明,HiGT-Fuse不仅在性能上优于传统方法,还在处理速度和资源利用方面具有优势。

HiGT-Fuse的框架设计充分考虑了实时性和环境适应性,使其能够广泛应用于各种音频处理场景。无论是现实世界中的音频数据,还是合成数据,HiGT-Fuse都能保持较高的检测和抑制效果。这种能力使得HiGT-Fuse在嘈杂环境和回声条件下仍然能够有效工作,为音频信号的稳定性和质量提供了保障。此外,HiGT-Fuse的自监督对比训练方法,使得模型能够在没有标注数据的情况下进行训练,这在实际应用中具有重要的意义。

在本文中,我们还讨论了HiGT-Fuse的实验结果和消融研究。消融研究进一步验证了各个模块对模型性能的贡献。例如,当我们移除元学习的边函数时,模型的检测准确率有所下降,这表明该模块在动态调整图结构方面起到了关键作用。同样,当我们移除双流GRU滤波器控制器时,模型在抑制啸叫方面的效果也有所减弱。这些结果表明,HiGT-Fuse的各个组成部分相互依赖,共同构成了一个高效的啸叫检测和抑制系统。

此外,我们还探讨了HiGT-Fuse在不同声学条件下的表现。在回声环境中,HiGT-Fuse能够有效识别和抑制啸叫,而不会影响其他音频信号。这表明HiGT-Fuse不仅适用于现实世界中的音频数据,也能够在合成数据中保持良好的性能。这种环境泛化能力使得HiGT-Fuse在实际应用中具有更高的灵活性和适应性。

在实验设置方面,我们详细描述了用于测试HiGT-Fuse的系统配置和环境。我们选择了多种基准算法,包括传统的自适应滤波器(AFC)和近年来的深度学习模型,如时间-频谱Transformer(TST)和Bootstrap Your Own Latent(BYOL)。通过对比这些算法的性能,我们进一步验证了HiGT-Fuse的优势。实验结果表明,HiGT-Fuse在检测准确率、适应速度和处理延迟方面均优于这些基线方法。

本文的结论部分指出,HiGT-Fuse作为一种基于自监督对比学习的层次化图-Transformer融合框架,成功地将多分辨率频谱图建模与Transformer时间编码相结合,从而解决了长期存在的啸叫检测和抑制问题。通过这种创新的方法,HiGT-Fuse不仅提高了音频处理的效率,还增强了系统的稳定性和可靠性。未来的研究方向可能包括进一步优化模型的实时性能,提高其在复杂声学环境中的适应能力,以及探索其在其他音频异常检测任务中的应用潜力。

为了确保研究的可重复性,我们还提供了数据可用性声明。本文使用的数据集,包括REVERB挑战数据集和爱丁堡数据共享数据集,都是公开可获取的。这些数据集的公开使得其他研究者能够复现我们的实验结果,并进一步验证HiGT-Fuse的有效性。此外,我们还提供了详细的作者贡献声明,以明确每位作者在本文中的具体工作。这些声明有助于提高研究的透明度和可追溯性,为后续研究提供参考。

综上所述,HiGT-Fuse作为一种新型的音频啸叫检测和抑制框架,具有重要的理论和应用价值。通过结合图学习和Transformer时间建模,并引入自监督对比训练,HiGT-Fuse能够在保持音频质量的同时,实现高效、实时的啸叫抑制。实验结果表明,HiGT-Fuse在多个数据集和声学条件下均表现出色,其性能优于传统方法和现有的深度学习模型。未来的研究可以进一步探索HiGT-Fuse在其他音频异常检测任务中的应用,以及如何优化其在复杂环境中的表现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号