StutterZero与StutterFormer:面向口吃语音转录与矫正的端到端语音转换模型
《IEEE Access》:StutterZero and StutterFormer: End-to-End Speech Conversion for Stuttering Transcription and Correction
【字体:
大
中
小
】
时间:2025年12月17日
来源:IEEE Access 3.6
编辑推荐:
本研究针对全球超7000万口吃人群面临的语音识别系统误识别问题,创新性地提出了StutterZero和StutterFormer两种端到端波形到波形转换模型。通过卷积双向LSTM与Transformer架构的对比优化,模型在SEP-28K和LibriStutter数据集上实现了口吃语音到流畅语音的直接转换,并联合预测转录文本。实验表明,StutterFormer将词错误率(WER)降低28%,语义相似度(BERTScore)提升34%,MOS评分达3.42。该研究为语音治疗、人机交互无障碍化提供了新技术范式。
当智能语音助手成为日常生活标配,全球超过7000万口吃者却面临着被技术边缘化的困境。现有语音识别系统对"a-a-and"这样的重复性口吃、突然中断的阻塞型口吃等五种主要口吃类型(详见表1)的识别错误率高达19.8%,更有23.8%的语音会被系统直接截断。这种技术壁垒不仅影响沟通效率,更会加剧口吃者的社交焦虑和心理负担。
传统解决方法存在明显局限:数字信号处理(DSP)方法需要手工提取梅尔频率倒谱系数(MFCC)等特征,依赖规则进行帧级切除,容易产生音频断裂;自动语音识别(ASR)与文本转语音(TTS)的组合管道虽能生成新音频,但分离式处理会导致语义失真和音质损失。这些问题催生了对端到端解决方案的迫切需求。
为此,Qianheng Xu在《IEEE Access》发表的研究提出了革命性的解决方案——StutterZero和StutterFormer模型。这两种模型首次实现从口吃语音到流畅语音的端到端直接转换,同时完成语音转录任务。研究团队创新性地采用多任务学习架构,使模型在转换语音波形的同时学习文本特征,显著提升了对语音内容的理解精度。
关键技术方法包括:1)基于SEP-28K和LibriStutter数据集构建配对口吃-流畅语音库,通过微调Whisper-Small模型生成流畅参考文本;2)StutterZero采用卷积双向LSTM编码器-注意力解码器架构,StutterFormer引入Transformer多头注意力机制;3)使用Griffin-Lim算法进行谱图到波形的重建,通过混合损失函数(MSE损失+交叉熵损失)优化多任务学习。
StutterZero的编码器采用两个卷积块与ConvBiLSTM层处理80通道log-Mel谱图,生成512维上下文向量。其特色在于双解码器设计:谱图解码头通过位置注意力机制预测128维Mel频率bin,文本解码头采用教师强制策略预测字素令牌。StutterFormer则在此基础上升级为Transformer架构,编码器使用正弦位置编码和三组多头注意力单元,解码器引入掩码自注意力防止未来信息泄露,并添加卷积后处理网络优化输出质量。
在SEP-28K和LibriStutter测试集上,StutterZero将词错误率(WER)从Whisper-Medium基线的36.1%降至11.6%,StutterFormer进一步优化至8.0%。语义相似度评估中,StutterFormer的BERTScore达到0.941,显著优于基线模型的0.601。威尔科克森符号秩检验证实这种改进具有统计学意义(p<1e-100)。特别值得注意的是,在完全未参与训练的FluencyBank数据集上,StutterFormer仍保持12.0%的WER和0.937的BERTScore,证明其强泛化能力。
移除文本解码器的消融实验导致模型性能急剧下降:StutterZero的WER上升至33.9%,BERTScore降至0.437。这证实多任务学习对捕捉语音-文本对齐关系至关重要。视觉谱图对比显示(表10),模型能有效消除重复型口吃产生的"锯齿状"频谱模式,生成连续平滑的语音信号。
客观语音质量评估显示,StutterFormer的平均意见得分(MOS)达3.42,优于StutterZero(3.04)和TTS基线(3.315)。这表明Transformer架构在保持语音自然度方面的优势,虽然所有系统输出均达到可接受水平(MOS>3)。
研究结论强调,端到端架构通过联合优化语音转换和文本转录任务,突破了传统级联系统的误差累积瓶颈。StutterFormer展现的28% WER降低和34%语义保持提升,验证了直接波形转换路径的可行性。该技术为实时通信辅助、语音治疗中的延迟听觉反馈(DAF)训练提供了新思路,有望通过移动端部署帮助口吃者实现更自然的人机交互。
尽管存在训练数据依赖TTS合成、硬件限制模型规模等局限性,但本研究开创了口吃矫正的新范式。未来结合多编码器 prosody(韵律)建模、跨语言迁移学习等方向,将进一步提升技术的包容性和实用性,让语音技术真正惠及所有人群。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号