基于LoRA编码器微调的Whisper模型在人工耳蜗用户语音识别中的高效适配研究
《IEEE Transactions on Signal and Information Processing over Networks》:Comparative Analysis of Automatic Speech Recognition Fine-tuning Strategies for Speech from Cochlear Implant Users
【字体:
大
中
小
】
时间:2025年12月11日
来源:IEEE Transactions on Signal and Information Processing over Networks 4.9
编辑推荐:
本研究针对通用自动语音识别(ASR)系统对人工耳蜗(CI)用户语音识别性能差的问题,系统比较了Whisper模型的多种微调策略。研究发现,仅训练2.15%参数的LoRA-encoder方法在韩语CI用户数据集上实现了最佳性能(字错误率11.57%),显著优于全参数微调,证实编码器对CI语音声学特征建模的关键作用,为开发包容性ASR系统提供了高效解决方案。
在人工智能技术日益普及的今天,自动语音识别(ASR)系统已成为智能手机、虚拟助手和智能家居设备的核心交互界面。然而,一个令人担忧的问题是,当前主流的ASR系统主要基于正常听力(NH)人群的语音数据训练,对听力障碍人群特别是人工耳蜗(CI)用户的语音识别性能显著下降。研究表明,CI用户的语音识别字错误率(WER)可达52.6%,是正常听力人群(5.0%)的10倍以上,这种技术壁垒进一步加剧了听力障碍人群的数字鸿沟。
人工耳蜗使用者由于听力受损导致的语音感知能力下降,其语音产生往往表现出独特的声学特征,包括发音缺陷如音素省略、替代和发音位置错误,以及刺耳声、过高或过低鼻音等特征。这些特殊的语音特性使得通用ASR系统难以准确识别,严重限制了CI用户享受数字技术带来的便利。
为解决这一挑战,Seojin Yoon、Hyunji Kim、Kyusung Kim和Sangmin Lee等研究人员在《IEEE Signal Processing Letters》上发表了一项创新研究,系统比较了多种微调策略,用于优化Whisper模型对CI用户语音的识别性能。该研究基于韩国仁荷大学医院收集的真实CI用户语音数据集,全面评估了全参数微调、选择性微调、适配器(Adapter)和低秩自适应(LoRA)四种策略的效果。
研究人员采用的关键技术方法包括:基于Transformer架构的Whisper语音识别模型,参数高效微调技术如适配器(Adapter)和低秩自适应(LoRA),字符错误率(CER)评估指标,以及针对编码器-解码器架构的选择性微调策略。实验使用来自韩国仁荷大学医院的真实CI用户语音数据集,包含26名说话者的14.87小时训练数据,采用80维log-mel声谱图作为输入特征。
研究基于Whisper-small模型,该模型采用经典的编码器-解码器架构。编码器负责将输入的音频信号转换为隐藏表示,解码器则基于这些表示生成对应的文本序列。针对CI用户语音识别的特殊需求,研究团队设计了四种不同的微调方案:全参数微调更新所有模型参数;选择性微调仅训练编码器或解码器模块;适配器方法在Transformer块中插入小型可训练模块;LoRA方法通过注入低秩矩阵实现参数高效适应。
实验结果清晰显示,所有微调方法均显著提升了基线性能。未微调的Whisper-small模型CER为21.14%,而全参数微调将CER降低至18.50%。最具启发的发现是,仅微调编码器的策略(Encoder full-finetune)以36.47%的训练参数量实现了11.73%的CER,显著优于全参数微调。相反,仅微调解码器的策略改善有限(CER 19.71%),表明编码器在捕捉CI语音声学特征中的核心作用。
参数高效方法表现出色:Adapter-64以0.97%的训练参数量实现12.64% CER;Adapter-128以1.92%参数量达到12.48% CER。LoRA方法中,LoRA-encoder以仅2.15%的训练参数量获得11.57% CER,成为最佳方案,而LoRA-decoder仅达到15.63% CER,再次验证编码器适应的关键性。
为验证LoRA-encoder策略的普适性,研究进一步扩展到不同规模的Whisper模型。Whisper-base模型经LoRA-encoder微调后,CER从36.20%大幅改善至16.13%;Whisper-medium从15.06%提升至8.75%;Whisper-large-v3-turbo从12.63%优化至7.78%。这些结果一致证明,LoRA-encoder策略在不同模型规模下均能实现显著性能提升,具有较强的可扩展性。
研究结论明确指出,针对编码器的参数高效微调是优化CI用户语音识别的最有效策略。这一发现的理论基础在于:CI用户与正常听力人群的语音差异主要体现于声学特征而非语言规则,因此专注于声学特征提取的编码器适应至关重要。LoRA-encoder方法在参数效率(仅2.15%)和识别性能(CER 11.57%)方面的卓越表现,使其成为有限数据环境下实现高性能ASR系统的理想选择。
这项研究的科学意义在于首次系统论证了编码器微调在适应特殊语音特征中的核心价值,为开发包容性语音技术提供了理论依据和方法学支撑。实践层面,研究提出的高效微调方案极大降低了ASR系统适配成本,为听力障碍人群平等享受语音交互技术扫除了重要障碍。未来研究方向包括大规模数据集验证、多语言泛化能力测试以及实时系统应用探索,进一步推动包容性人工智能技术的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号