BABA数据集:基于自然范式的多说话者语言理解fMRI与MEG神经影像资源
《Scientific Data》:Naturalistic fMRI and MEG recordings during viewing of a reality TV show
【字体:
大
中
小
】
时间:2025年11月19日
来源:Scientific Data 6.9
编辑推荐:
本研究针对自然情境下多说话者语言理解的神经机制这一前沿问题,通过采集30名被试的功能磁共振成像(fMRI)和30名被试的脑磁图(MEG)数据,记录了他们在观看中国真人秀节目时的脑活动。研究发现右侧颞顶联合区(TPJ)在说话者切换时显著激活,揭示了注意重新定向在多人对话中的关键作用。该数据集为研究自然交流的时空动态提供了宝贵资源,对语言神经科学和社会认知研究具有重要意义。
在认知神经科学领域,理解大脑如何处理日常生活中的语言一直是个核心挑战。传统研究多采用严格控制但生态效度较低的实验范式,如孤立的词语或句子,这与真实世界中充满上下文、多说话者、情感丰富的交流场景相去甚远。近年来,使用电影、播客等自然刺激物的研究范式逐渐兴起,它们能更好地保留真实语言交流的时间动态、语境丰富性和社会复杂性。然而,现有的大部分开放获取神经影像数据集仍聚焦于单说话者或双说话者场景,难以捕捉现实生活中多人交流的复杂性,如重叠语音、快速话轮转换和自然插话等。处理这类复杂语言环境需要大脑调动额外的认知和神经机制,包括在多个说话者间分配注意力、监控说话者身份以及整合多个话语流。快速的话轮转换作为群体对话的常见特征,对大脑提出了独特挑战,要求听者动态更新预测、重新定向注意并维持不同说话者观点和叙事线索的多种心理表征。尽管其重要性不言而喻,但针对多人自然交流的神经基础研究仍然不足,迫切需要能够反映现实世界交流真实复杂性的数据集和范式。
为了填补这一空白,由李继兴等人组成的研究团队在《Scientific Data》期刊上发布了名为“BABA”的功能磁共振成像(fMRI)和脑磁图(MEG)数据集。该研究招募了两组独立的被试群体(每组N=30),分别在接受fMRI和MEG扫描时观看同一段25分钟的中国真人秀《爸爸去哪儿?(第一季)》节选。节目记录了五对父子在乡村的自然互动,包含11位主要说话者,其对话具有自发性、情感丰富、语音重叠、话轮转换迅速等特点,为研究真实场景下的多说话者理解提供了理想的生态学效度高的刺激材料。
研究采用的关键技术方法包括:1) 数据采集:使用3.0 T Siemens Prisma MRI扫描仪采集fMRI数据,使用64通道光泵磁强计(OPM)MEG系统采集MEG数据;2) 数据预处理:fMRI数据使用fMRIPrep流程预处理,MEG数据使用MNE-Python预处理,包括滤波、坏道插值和独立成分分析(ICA)去噪;3) 刺激材料标注:使用Whisper Large-V3进行语音转录,并手动校对,提取音高(pitch)、强度(intensity)等声学特征,以及词频、词性(POS)标签、句法复杂度等语言学特征;4) 数据分析:包括被试间相关性(ISC)分析、一般线性模型(GLM)分析和源定位分析。被试来源于上海外国语大学(fMRI实验)和四川大学华西医院(MEG实验)。
被试在视频后测验中的平均正确率较高(fMRI实验:79.33% ± 19.29%;MEG实验:85.33% ± 18.14%),表明他们在扫描过程中注意力集中。
MRIQC(MRI Quality Control)对原始和预处理后的解剖及功能数据进行的图像质量指标(IQMs)评估显示数据整体完整性高,噪声水平低,头动伪影少。功能MRI数据表现出高时间信噪比(tSNR)和低DVARS(temporal derivative of time courses of root mean square over voxels),表明时间稳定性强。
计算视频观看期间各体素时间序列在被试间的相关性(ISC),发现左侧颞叶和双侧枕叶等区域有最强的相关性,表明在这些脑区神经活动在不同被试间具有一致性。
通过GLM分析探索血氧水平依赖(BOLD)信号对音频音高、强度以及说话者切换事件的响应。结果显示,音高和强度特征在双侧颞上回区域引发了显著激活,这与Neurosynth元分析中“pitch”和“intensity”术语对应的激活图高度一致。特别重要的是,在视频中出现说话者切换的时刻,研究发现了右侧颞顶联合区(TPJ)的显著激活。
对MEG数据的质量评估显示,坏道比例和排除的ICA成分数量均在可接受范围内,表明数据质量良好。
对源水平MEG数据进行ISC分析,发现在视频观看期间,包括颞叶、顶叶和枕叶皮层在内的广泛双侧脑网络存在显著的交感同步,这与fMRI的ISC结果相互印证。
线性回归分析用于考察MEG信号对音高、强度和说话者切换的响应。结果显示,音高在140-300毫秒时间窗内于右侧颞上区引发显著响应;强度在-80至320毫秒(左侧)和-100至200毫秒(右侧)时间窗内于双侧颞上回(STG)引发显著响应;说话者切换在300-500毫秒时间窗内于右侧TPJ和STG,以及-60至500毫秒时间窗内于右侧颞中回(MTG)引发显著响应。这些发现揭示了这些特征处理的时间动态,并与fMRI结果在空间上形成互补。
综上所述,BABA数据集通过结合fMRI的高空间分辨率和MEG的高时间分辨率,为深入探索自然情境下多说话者语言理解的神经机制提供了独特的资源。研究不仅验证了数据集的高质量,还通过初步分析揭示了右侧TPR在处理对话动态(特别是说话者切换)中的关键作用,这与该脑区在注意重新定向中的已知功能相符。该数据集包含丰富的多模态神经影像数据以及详尽的声学、语言学标注,为未来研究复杂、生态效度高的语言处理、社会认知和听觉注意的神经基础开辟了新的途径。特别是其聚焦于父子互动这一发展性和情感性交流场景,为探索不同于成人间对话的独特神经回路提供了可能。数据集已遵循BIDS(Brain Imaging Data Structure)格式在OpenNeuro平台公开,确保了其可访问性和可重复性。尽管存在诸如视频中逐帧说话者标注尚未完成等局限性,但BABA数据集无疑将推动语言神经科学、社会认知及计算建模等多个领域的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号