基于深度神经网络与线性预测融合的共振峰追踪方法研究
《IEEE Open Journal of Signal Processing》:Formant Tracking by Combining Deep Neural Network and Linear Prediction
【字体:
大
中
小
】
时间:2025年12月01日
来源:IEEE Open Journal of Signal Processing 2.7
编辑推荐:
本研究针对传统信号处理与深度学习方法在共振峰(Formant)追踪中存在的过拟合与伪峰问题,提出了一种结合深度神经网络(DNN)与准闭相前向-后向线性预测(QCP-FB)的混合追踪器。通过使用梅尔频率倒谱系数(MFCC)作为DNN输入,并利用QCP-FB频谱峰值对DNN估计结果进行帧级优化,显著提升了F1、F2和F3的追踪精度。该方法在VTR-TIMIT数据库上的实验表明,其误差较主流追踪器降低最高达143.4 Hz,为语音科学及病理语音分析提供了更可靠的技术支撑。
在语音科学领域,共振峰(Formant)作为表征声道共振特性的关键参数,其动态轨迹的精确追踪对语音识别、病理语音分析及听觉研究具有重要意义。然而,传统基于线性预测(Linear Prediction, LP)的模型驱动方法易受频谱伪峰(Spurious Peaks)干扰,而新兴的数据驱动深度学习方法则面临过拟合训练数据的问题,导致在未知语音上表现下降。如何兼顾算法的鲁棒性与泛化能力,成为共振峰追踪技术发展的核心挑战。
为解决上述问题,本研究创新性地将深度神经网络(Deep Neural Network, DNN)与信号处理领域的准闭相前向-后向线性预测(Quasi-Closed Phase Forward-Backward, QCP-FB)方法相结合,构建了一种混合共振峰追踪器。该研究发表于《IEEE Open Journal of Signal Processing》,其核心思路是通过DNN初步估计共振峰频率,再利用QCP-FB生成的声道全极模型频谱局部峰值对DNN结果进行帧级 refinement( refinement),从而同时抑制过拟合与伪峰影响。
研究采用VTR-TIMIT数据库的300条训练语句和192条测试语句,分别来自8名女性和16名男性说话人,覆盖元音、双元音、半元音等七类音素。通过对比13种追踪器(包括5种传统信号处理方法和8种深度学习方法),从共振峰检测率(Formant Detection Rate, FDR)和估计误差(Formant Estimation Error, FEE)两个维度评估性能。
关键技术方法包括:(1)使用四层前馈神经网络将MFCC、语谱图或复语谱图映射为F1-F3的初始估计;(2)采用QCP-FB分析提取每帧语音的频谱峰值(最多6个);(3)将DNN输出的共振峰替换为QCP-FB频谱中最近的局部峰值,完成 refinement。实验重点对比了MFCC、语谱图(Spectrogram)和复语谱图(Complex Spectrogram)三种特征输入的有效性。
混合追踪器的整体优势
在包含元音、双元音和半元音的综合测试集上,MFCC-DNNQCP-FB追踪器取得最佳性能:F1、F2和F3的FDR分别达94.0%、96.2%和93.7%,FEE降至59.6 Hz、90.3 Hz和106.9 Hz。相较于深度共振峰追踪器(DeepF)的 refinement 版本DeepFQCP-FB,误差进一步降低0.8 Hz(F1)、12.9 Hz(F2)和11.7 Hz(F3);与传统模型驱动方法KARMA相比,误差降幅达2.3 Hz(F1)、55.5 Hz(F2)和143.4 Hz(F3)。
输入特征对性能的影响
MFCC特征的优越性显著:以其为输入的DNN追踪器(MFCC-DNN)在未 refinement 时已优于多数对比方法, refinement 后(MFCC-DNNQCP-FB)稳定性进一步提升。相比之下,语谱图与复语谱图因保留谐波细节易导致DNN过拟合,而MFCC通过梅尔滤波器组压缩频谱,强化低频共振峰区域的分辨率,更适配追踪任务。复语谱图输入(CSPEC-DNN)的FDR最低(F3仅68.9%), refinement 后虽提升至88.0%,仍逊于MFCC方案。
性别差异分析
男性说话人的共振峰追踪整体更准确:其F2和F3的FDR普遍高于女性,且FEE更低。这是由于男性基频(F0)较低,谐波间距更密,频谱包络估计时误差较小;而女性高频共振峰易受宽谐波间距影响。MFCC-DNNQCP-FB在男性语音中F3误差仅105.3 Hz,女性则为110.2 Hz。
音素类别特异性
在元音和双元音上,MFCC-DNNQCP-FB表现最优,F3的FDR在女性双元音中达97.0%。但对于摩擦音/塞擦音、声带杠(Voice Bars)和塞音,追踪难度增大:男性摩擦音/塞擦音的F1FDR降至57.6%,FEE升至175.8 Hz。这类音素包含较多非周期性噪声,干扰QCP-FB的频谱峰值提取,尤其对男性较低且密集的共振峰影响更显著。
refinement 机制的有效性验证
refinement 过程通过局部频谱峰值替换显著提升轨迹平滑度。如图5所示,女性说话人语句“visually these”的F3在0.5-0.6秒区间,MFCC-DNNQCP-FB(图d)比未 refinement 的MFCC-DNN(图c)更贴近人工标注的真值(Magenta线),证明QCP-FB能修正DNN的估计偏差。
本研究通过融合数据驱动的DNN与模型驱动的QCP-FB,构建了一种高性能共振峰追踪器。MFCC-DNNQCP-FB不仅显著降低估计误差,且参数规模(0.3 M)远小于LSTM-based的Deep Formants(4 M),兼具效率与精度。该方法的 refinement 模块具普适性,可扩展至其他深度学习模型,为语音处理、病理语音评估及听觉辅助设备提供了更可靠的技术基础。未来需在噪声环境及多语种数据库上进一步验证其鲁棒性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号