
-
生物通官微
陪你抓住生命科技
跳动的脉搏
轻量化时频双域语音增强网络MSLD-SENet:基于多尺度深度可分离卷积与通道混洗注意力的高效噪声抑制
【字体: 大 中 小 】 时间:2025年08月01日 来源:Digital Signal Processing 3
编辑推荐:
本文提出MSLD-SENet(Multi-Scale Lightweight Dual-Domain Speech Enhancement Network),通过时频多尺度深度可分离卷积(TF-MDCSA)和轻量膨胀密集连接网络(LDDB),在仅0.82M参数量下实现PESQ 3.57的高性能语音增强。该模型创新性地融合通道混洗注意力与双阶段Transformer,显著降低计算复杂度,为移动端实时降噪提供高效解决方案。
Highlight
语音增强技术
深度学习推动语音增强技术跨越式发展。传统信号处理方法(如谱减法、维纳滤波)在简单噪声场景表现良好,但面对复杂声学环境时,其依赖噪声先验知识的局限性凸显。相比之下,基于深度神经网络(DNN)的方法通过数据驱动模式突破这一瓶颈。
Methodology
模型架构详解
本研究的核心是生成器-判别器协同框架:生成器采用编码器-解码器结构,集成双阶段Transformer模块;判别器基于MetricGAN框架,通过逼近感知评价指标(如PESQ)生成监督信号。编码器通过通道扩展和频率压缩构建多尺度时频表征,解码器则采用独创的频域上采样卷积块(FDUCB)提升细节重建能力。
Experimental Setup
实验参数配置
音频统一重采样至16kHz,训练数据分割为2秒片段。短时傅里叶变换(STFT)采用400点汉宁窗(25ms时宽),帧移10ms,生成201维频域特征。模型在VoiceBank+DEMAND数据集验证,对比基线包括Conv-TasNet、DPRNN等主流方案。
Evaluation Metrics
多维性能评估
采用宽带语音质量感知评估(WB-PESQ?,范围-0.5~4.5)、短时客观可懂度(STOI)和平均意见得分(MOS)三维度体系。MOS细分信号失真度(CSIG)、背景噪声抑制(CBAK)和整体效果(COVL),均采用1~5分级制。
Conclusion
研究价值总结
MSLD-SENet通过时频域混合注意力机制与轻量化架构的协同设计,在参数量减少64%情况下仍保持SOTA性能。频域上采样模块(FDUCB)和膨胀密集块(LDDB)的创新组合,为边缘计算设备部署提供新范式。
生物通微信公众号
知名企业招聘