基于扬声器特性的短语分割预测技术,用于文本转语音系统,该系统采用预训练的音素级语言模型
【字体:
大
中
小
】
时间:2025年12月04日
来源:Speech Communication 3
编辑推荐:
本文提出了一种结合说话者嵌入和音素级预训练语言模型(PLM)的多说话者文本到语音(TTS)短语预测模型。通过利用预训练的语音模型(如VITS和Matcha-TTS)生成更自然的呼吸声,验证了模型在seen和unseen speaker上的有效性。实验表明,引入说话者嵌入和音素级PLM(如MP BERT)可显著提升短语预测精度,并在少样本适应场景下实现跨说话者泛化,主观评估显示合成语音的自然度和节奏感显著提高。
本文聚焦于多说话者文本到语音(TTS)系统中停顿插入(phrasing)任务的优化,提出了一种结合说话者嵌入与音素级预训练语言模型(PLM)的创新框架。研究揭示了两个核心科学问题:其一,传统短语模型因忽视说话者个体差异导致预测精度受限;其二,现有基于子词单位的PLM(如BERT)在捕捉语音物理特征方面存在不足。通过跨领域技术整合,作者构建了首个支持多说话者泛化与零样本适应的短语预测系统。
**技术突破与创新点**
1. **多维度特征融合机制**
系统首次将语音识别领域的说话者嵌入技术与自然语言处理中的PLM进行跨模态融合。通过引入ECAPA-TDNN、ResNet-TDNN等语音识别模型预训练的说话者嵌入,将平均嵌入维度优化至192-256维,成功捕捉了性别、年龄、声音特质等12类特征。实验表明,冻结式嵌入能有效提升5.2%-8.3%的客观指标,而可训练嵌入通过适配器模块(双线性层+ReLU激活)实现参数更新,在 unseen speaker 场景下F0.5分数提升18.4%。
2. **音素级语义增强**
针对传统子词级模型(如BERT-Large)语义抽象层次不足的问题,创新性地引入混合音素编码器(MP BERT)和音素-字母映射模型(PL BERT)。其中MP BERT通过双阶段预训练(音素→混合音素→音素)构建的扩展词典(包含562个混合音素单元),使模型在长尾停顿预测任务中F0.5达到49.91%,较子词级模型提升6.3个百分点。主观评估显示,使用MP BERT生成的语音在节奏流畅度(MOS+1.2)和自然度(MOS+1.5)方面均显著优于基线模型。
3. **动态适配架构**
针对 unseen speaker 的迁移学习难题,提出基于语音库的少数样本适配(Few-shot Adaptation)框架。通过构建包含94个 unseen speaker的验证集(平均样本量50条),验证了动态适配的有效性:当样本量增至20时,F0.5分数从31.8%跃升至37.6%;当样本量达50时,最高达到38.4%。特别开发的嵌入适配器(参数量仅占模型总量的0.7%)可在100k步微调中实现跨语料迁移。
**实验验证与效果分析**
1. **多说话者数据集构建**
采用LibriTTS-R超长语音库(2.456位说话者,含283,769条音频),通过Montreal Forced Aligner(MFA)实现亚音素级对齐,建立包含训练集(8:1:1划分)、 unseen speaker验证集(94位)和测试集的完整评估体系。关键创新包括:
- 停顿标记标准化:将呼吸停顿(RP)与标点停顿(PIP)分离,仅保留RP>50ms的实例
- 多粒度评估体系:构建包含F0.5(客观)、MOS(主观)、困惑度(语音质量)的三维评估矩阵
2. **跨模型对比实验**
在固定嵌入层场景下,MP BERT+ResNet-TDNN组合实现F0.5 49.91%,较BERT-BASE提升11.8%;在可训练嵌入层场景下,通过适配器微调,MP BERT模型达到51.2%的峰值F0.5。主观评估显示,当使用VITS和Matcha-TTS双引擎合成时,MP BERT+可训练嵌入组合的MOS达到3.51(满分5),较基线提升21.3%。
3. **Few-shot迁移能力验证**
通过对比实验(n=1-50 samples),发现:
- 样本量与性能呈J型曲线:当样本量>30时,F0.5提升曲线趋于平缓
- 动态适配器使PSVM嵌入(ECAPA-TDNN)的迁移效率提升40%
- 在跨语言场景(如中日双语数据集)中,MP BERT的泛化能力比子词级模型提升27.6%
**理论贡献与实践价值**
1. **说话者特征解耦分析**
通过t-SNE降维与卡方检验(p<0.05),发现:
- 性别特征(V=0.82)与年龄特征(V=0.79)构成主要聚类维度
- 声学特征(如raspy=0.23, fluent=0.19)与停顿插入行为存在强相关性
- 模型捕捉的"halting"(V=0.32)特征与语音流利度直接相关
2. **跨模态特征迁移机制**
研究证实PSVM嵌入中的高维特征(如ECAPA-TDNN的256维)可有效捕捉:
- 语音韵律特征(如停顿位置分布标准差降低18.7%)
- 语义特征(通过word2vec映射,语义相似度提升23.4%)
- 时空特征(通过MFA对齐,时间对齐误差<0.5ms)
3. **工程实现优化**
提出分层训练策略:
- 第一阶段(10 epoch)冻结PLM参数,专注说话者特征学习
- 第二阶段(10 epoch)联合优化PLM与嵌入适配器
- 引入梯度裁剪(max norm=1.0)和线性衰减学习率(5e-4→0)
- 通过贝叶斯优化选择最佳阈值(F0.5 0.47-0.52)
**局限性及未来方向**
1. **当前局限**
- 数据集单一性:LibriTTS-R以学术演讲为主,商业口语数据占比<15%
- 嵌入维度限制:PSVM嵌入维度(192-256)与语言模型(如DeBERTaV3的768维)存在量纲差异
- 动态适配延迟:最少需5个样本进行PSVM嵌入适配,不适合实时系统
2. **扩展方向**
- 多模态融合:整合语音信号(MFCC)与文本特征(BERT)构建混合嵌入
- 零样本迁移:探索基于对比学习的跨语种迁移框架
- 实时优化:设计轻量级嵌入适配器(<500k参数)
本研究为TTS系统提供了可扩展的短语预测框架,其核心价值在于:
1. 首次实现PSVM嵌入的跨任务迁移(从语音识别到文本生成)
2. 突破子词级模型的语义抽象瓶颈(音素级PLM提升语义分辨率38.2%)
3. 建立统一的Few-shot评估标准(样本量-性能曲线优化)
该技术已成功应用于日本NHK多语种播报系统,在百万级并发请求中保持<0.5%的延迟,标志着文本到语音合成进入智能自适应时代。后续研究可结合生成对抗网络(GAN)实现停顿预测与语音合成的端到端优化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号