编辑推荐:
研究人员利用深度皮质脑电图(ECoG)研究自然语言处理,发现 Whisper 模型可准确预测神经活动,为相关研究提供新框架。
在日常生活里,人们用语言交流想法,看似轻松平常,背后却藏着大脑复杂的运作机制。传统神经语言学研究采用 “分而治之” 的策略,把语言划分成语音学、音系学、形态学、句法学、语义学和语用学等不同子领域,分别构建封闭的符号特征和语言过程模型。然而,现实对话中的语言具有高度复杂性、多维性和语境依赖性,传统的心理语言学模型和理论难以解释其中微妙、非线性且依赖语境的交互作用,这就好比用简单的拼图去还原一幅复杂的巨作,总是缺了些关键部分。
为了突破这一困境,来自以色列希伯来大学、美国谷歌研究、普林斯顿大学、纽约大学医学院等多个机构的研究人员开展了一项重要研究,相关成果发表在《Nature Human Behaviour》上。
研究人员采用了一种全新的密集采样深度皮质脑电图(ECoG)范式,对 4 名患有耐药性癫痫的患者在医院与他人自由交谈时的神经活动进行持续监测。这一范式能够实现全天候不间断记录,收集到了大量自然对话中的神经活动数据,为研究提供了丰富的素材。同时,研究人员运用了一个名为 Whisper 的多模态语音转文本模型,从该模型的不同层次提取出低层次的声学嵌入、中层次的语音嵌入和语境词嵌入,并构建编码模型,探索这些嵌入与大脑活动之间的联系。
研究结果如下:
- 声学 - 语音 - 语言对神经活动的预测:Whisper 模型的声学、语音和语言嵌入在预测大脑语言网络多个区域的神经活动方面表现出惊人的准确性。在众多电极中,语音嵌入在预测神经活动时,比声学嵌入产生的显著电极更多;而语言嵌入在预测高级语言区域的神经活动时表现更佳。此外,即使训练数据仅使用 25%,模型的预测性能依然稳健。
- 语音和语言信息的选择性与整合:研究发现,语音和语言信息并非由特定的单一脑区处理,而是在多个脑区进行编码。通过方差划分分析,研究人员发现不同脑区对语音和语言嵌入的选择性不同,例如在自发语言产生和理解过程中,低级的感觉运动区域对语音嵌入更敏感,而高级语言区域则对语言嵌入更为偏好。
- 听觉语音信号对语言表征的影响:研究表明,当 Whisper 模型的语言解码器接收来自编码器的语音信息时,语言嵌入的编码性能显著提高,这意味着语音信息能够改变语言解码器中语言信息的表示,进而提升对神经反应的建模能力。
- 语音处理的精细时间动态:借助 ECoG 记录的高时空分辨率,研究人员发现语言产生和理解过程中,不同脑区的神经活动在时间上存在特异性。在语言产生时,编码性能在单词发音前 300 多毫秒达到峰值;而在语言理解时,编码性能在单词发音后 300 多毫秒达到峰值。此外,不同类型的嵌入在预测不同脑区的神经活动时各有优势。
- 声学 - 语音 - 语言模型与符号模型的比较:研究显示,从多模态深度声学 - 语音 - 语言模型中提取的语音和语言嵌入,在预测自然对话中的神经活动方面,明显优于传统的符号模型。而且,深度模型的嵌入还能隐式学习到一些经典心理语言学的概念,如音素和词性等。
- 语言产生和理解过程中的信息流:通过评估编码模型在单词发音前后不同时间点的表现,研究人员追踪了自然对话中信息从听觉区域(如颞上回,STG)到语言相关区域(如额下回,IFG)再到运动区域(如中央前回和中央后回,SM)的流动过程。在语言产生和理解过程中,信息流的时间动态存在明显差异。
研究结论和讨论部分指出,该研究利用大规模自然对话数据集,详细展示了大脑在处理语言时的神经机制。统一的多模态模型为研究大脑如何整合声学、语音和语言信息提供了精确的数值编码,揭示了低级语音处理和高级语义处理之间的相互作用。此外,关于深度语言模型与人类大脑之间的关系,存在两种可能的解释:一是编码模型有效学习了自然语言处理中不同代码之间的转换,使深度语言模型成为研究大脑处理日常对话的有力工具;二是深度语言模型和人类大脑在自然语言处理上可能共享计算原理,这挑战了传统基于规则的符号语言模型。
总的来说,这项研究为自然语言处理的神经基础研究提供了全新的统一计算框架,标志着研究范式正朝着基于统计学习和高维嵌入空间的非符号模型转变。随着这类模型在处理自然语言方面的能力不断提升,它们将更深入地揭示语言处理的奥秘,为认知科学、神经科学等领域的发展带来新的机遇。
研究人员开展这项研究主要运用了以下关键技术方法:
- 数据采集:使用 NicoletOne C64 临床放大器或 NeuroWorks Quantum Amplifier,从 4 名患者的颅内电极阵列采集神经活动数据,同时记录患者的语音信号。
- 数据预处理:对语音录音进行去识别、转录、文本与语音对齐以及语音与神经活动对齐等处理;对 ECoG 记录进行去除伪影、滤波、计算功率包络等预处理操作。
- 嵌入提取:从 Whisper 模型中提取声学嵌入、语音嵌入和语言嵌入。
- 模型构建与分析:构建电极编码模型,通过线性回归映射 Whisper 嵌入与神经活动的关系;运用方差划分分析评估不同模型对神经活动方差的解释能力;使用多种统计检验方法分析数据差异 。