听觉词形编码的人类皮层动态:STG在连续语音中整词感知的神经机制

《Neuron》:Human cortical dynamics of auditory word form encoding

【字体: 时间:2025年11月08日 来源:Neuron 15

编辑推荐:

  本研究利用高密度皮层脑电记录,发现人类颞上回(STG)神经群体在自然语言处理中通过活动重置标记词边界,并在词内动态整合声学-语音、韵律和词汇特征,形成独立于时长的相对时间编码机制。该研究揭示了STG作为听觉词形表征的核心枢纽,为理解语言感知的神经动力学提供了新范式。

  
当我们聆听连续语音时,大脑是如何将流水般的声音信号切分成一个个有意义的单词的?这个问题自1874年神经学家卡尔·韦尼克发现颞上回(STG)损伤导致语言理解障碍以来,一直困扰着研究者。尽管近年研究已揭示STG如何处理语音片段(如辅音、元音和韵律线索),但大脑如何将这些片段整合成我们感知到的完整单词单元,仍是一个未解之谜。
自然语言中的词边界缺乏明确的声学标记,同一个声音序列可能被感知为不同的单词(如"turbo"和"boater")。传统理论认为,STG主要编码亚词汇的语音信息,而词汇级别的表征则由更高级脑区(如前颞叶、后中颞回或额下回)完成。然而,由于成像技术的时空分辨率限制,关于单词单元精确神经表征的证据一直存在争议。
为了攻克这一难题,张一珍、Matthew K. Leonard等研究团队在《Neuron》上发表了最新研究成果。他们采用高密度 electrocorticography(ECoG)技术,以毫米级和毫秒级精度记录了16名参与者聆听自然叙述时的神经活动。通过结合行为实验、神经动力学分析和计算模型验证,研究揭示了STG在听觉词形编码中的核心作用。
关键技术方法包括:使用波士顿大学广播语音语料库(BURSC)的自然连续语音刺激;高密度ECoG记录(256通道)颞叶皮层的高伽马活动(HGA,70-150 Hz);双稳态语音感知任务(产生多义词感知);自我监督深度学习模型(HuBert)的对比分析;以及主成分分析(PCA)和状态空间建模等神经动力学分析方法。
神经活动标记连续语音中的词边界
研究首先发现,STG神经群体在词边界处表现出独特的活动重置模式。与词内音节边界引起HGA增强不同,词边界后约100毫秒会出现显著的HGA瞬时下降(峰值潜伏期99.1±65.5毫秒)。
这种词边界特异性反应在双侧STG广泛存在(左半球28.5%,右半球25.8%),且神经解码器区分词边界与音节边界的性能(AUC=0.91)显著优于基于声学包络(AUC=0.72)或声谱图(AUC=0.83)的解码器,表明STG神经活动能够超越不可靠的声学线索,检测语言学意义上的词单元。
词边界对齐的声学-语音、韵律和词汇编码
在词边界之间,STG神经活动动态编码多层级语音特征。滑动窗口偏相关分析显示,声学-语音特征在词开始后约100毫秒至下一词前100毫秒持续编码;韵律特征在词开始后300毫秒出现瞬时编码峰值;而词汇特征(如词频、词长)主要在词边界周围200毫秒窗口内编码。
单个STG电极可同时编码多种特征类型:38.6%电极仅编码一类特征(主要为声学-语音),61.4%电极编码多类特征,其中22.7%电极同时编码声学-语音、韵律和词汇三类信息。这些多特征编码电极主要位于中STG,表明该区域是语音信息整合的关键枢纽。
神经群体中的词动态时间追踪
面对词语时长的巨大变异性(30-1310毫秒),STG神经群体展现出精确的时间追踪机制。通过将词语按时长分组并分析种群活动轨迹,研究发现神经活动在二维状态空间中形成循环轨迹。
轨迹半径与绝对时间相关(r=0.40±0.33),而极角相位则恒定地追踪相对经过时间(旋转速度5.72±0.65弧度/周期),与词语绝对时长无关。这种相对时间编码机制使神经群体能够灵活适应不同时长的词语处理,类似于视觉系统中大小不变性表征的计算原理。
自我监督语音模型中的词级表征
研究进一步在自监督语音识别模型HuBert中发现了类似的词处理机制。词边界解码性能随模型层深增加而提升(第21层AUC=0.95),且深层模型同样表现出词汇特征编码增强和循环动力学轨迹。
特别是第21层模型表现出与人类STG相似的相对时间编码特性(旋转速度5.57±0.41弧度/周期),表明自监督学习能够自发提取词单元的时间结构,为生物与人工神经网络的语言处理机制提供了跨物种验证。
皮层反应与词单元感知的动态对齐
通过双稳态语音感知任务,研究直接证明了STG活动与主观词感知的因果关联。当参与者对同一声音流交替感知为不同单词(如"turbo"或"boater")时,STG电极在感知词边界后100-150毫秒显示出与感知相关的HGA差异。
值得注意的是,70.7%在双稳态任务中显示感知效应的电极在自然语音任务中也表现出词边界效应,证实了STG在词形编码中的核心作用不受任务模式影响。
研究结论与意义
这项研究突破了传统语言处理模型的局限,提出了STG作为动态整合中心的创新框架。不同于传统的串行处理模型,STG通过种群动力学实时整合多层级语音信息,在词边界处重置活动,并在词内维持相对时间追踪,形成 duration-invariant(时长不变)的词形表征。这种机制使大脑能够灵活处理自然语言中的巨大变异性,将连续的声学信号转化为离散的词汇单元。
该研究不仅揭示了听觉词形编码的神经基础,还为理解语言障碍的病理机制提供了新视角。同时,人类STG与自监督学习模型在词处理动力学上的相似性,为发展更接近人脑处理机制的人工智能语言模型提供了生物学启示。未来研究可进一步探索这些动力学如何与更广泛的语言网络互动,以及在复杂语言环境中的适应性变化。
通过高时空分辨率神经记录技术、创新实验范式和计算模型验证的有机结合,这项研究为我们理解大脑如何将连续语音转化为有意义的语言单元树立了新的里程碑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号