编辑推荐:
为探究 AI 合成熟悉与陌生语音对神经反应的影响,研究人员利用 GPT-SoVITS 合成三种语音,通过 fNIRS 监测脑区血氧变化。发现 AI 合成母亲语音显著激活前额叶和颞叶皮层,揭示其在心理健康和用户体验领域的潜力。
在人工智能技术飞速发展的当下,语音合成技术日臻成熟,AI 语音与人类语音的差异逐渐缩小。然而,尽管个性化语音合成技术(如 Few-Shot Text-to-Speech,FSTS)已能通过少量样本模仿特定人声,但 AI 合成语音,尤其是熟悉语音(如亲人声音)如何影响人类情感及大脑神经反应,仍缺乏直接的神经科学证据。过往研究虽聚焦于语音识别的脑机制,发现颞叶和前额叶在区分熟悉与陌生声音中起关键作用,但 AI 合成的熟悉语音能否触发类似的神经活动,尚未有明确结论。
为填补这一研究空白,绍兴文理学院的研究人员开展了相关实验,其成果发表在《Scientific Reports》。
研究团队采用功能近红外光谱技术(functional near-infrared spectroscopy,fNIRS),这是一种通过测量皮层血氧水平变化来实时监测脑活动的无创脑成像技术。实验中,研究人员利用 GPT-SoVITS 模型合成三种语音:普通女性语音、甜美女性语音和母亲语音(均朗读相同文本)。其中,母亲语音样本来自参与者母亲的真实录音,经降噪处理后用于模型训练;另外两种陌生语音则来源于公开音频库。实验招募了 25 名 20-25 岁的学生志愿者,通过 fNIRS 设备记录他们在聆听不同语音时前额叶皮层(Prefrontal Cortex,参与认知控制和情感调节)和颞叶皮层(Temporal Cortex,涉及语言和情感记忆处理)的血氧变化,并结合问卷调查分析参与者的情感反馈。
实验结果
fNIRS 数据分析
通过对比发现,无论是与普通女性语音(实验 1)还是甜美女性语音(实验 2)相比,AI 合成的母亲语音均显著提升了前额叶和颞叶的血氧水平(ΔHbO)。实验 1 中,母亲语音与普通女性语音的平均 ΔHbO 差异为 0.02199,颞叶差异更显著(0.02431);实验 2 中,这一差异为 0.02300,颞叶差异达 0.02653,表明熟悉语音对脑区的激活更强。
线性混合效应模型(LMM)分析
模型显示,任务语音类型对脑活动的主效应显著(实验 1:F=41.062,p<0.001;实验 2:F=29.459,p<0.001),而脑区主效应仅在实验 1 中显著(F=6.364,p=0.015)。交互作用均不显著,说明语音类型对脑激活的影响独立于脑区差异。
情感反馈与声学分析
参与者反馈显示,聆听母亲语音时多会无意识回忆与母亲相关的场景,而陌生语音则主要引发对文本内容的关注。声学分析(Mel-Cepstral Distortion,MCD)表明,合成语音与真实语音的差异未显著影响血氧变化,排除了声学干扰对结果的影响。
研究结论与讨论
该研究证实,AI 合成的熟悉语音(如母亲语音)可显著激活前额叶和颞叶皮层,这种激活可能反映了语音熟悉度处理的多维特征,包括情感、记忆和认知功能。前额叶的激活可能与注意力调节和情感记忆检索相关,而颞叶则与语音语义理解及情感记忆提取密切相关。
研究的创新之处在于突破传统语音合成的主观评估框架,首次通过 fNIRS 技术直接揭示 AI 语音的神经机制,为 AI 语音在心理健康领域的应用提供了直观的神经科学证据。例如,利用 AI 合成亲人语音可缓解老年人的孤独感,或为心理干预提供新途径。尽管研究存在样本量较小、脑区定位精度有限等局限,但其结果为个性化语音合成技术在情感支持、人机交互等领域的应用奠定了理论基础,预示着 AI 语音从 “功能性交互” 向 “情感化陪伴” 的重要跨越。