GCANet:利用时间频率卷积网络(TCGN)和交叉注意力机制提升基于脑电图(EEG)的听觉注意力解码能力

《Neuroscience》:GCANet: Enhancing EEG-based auditory attention decoding with temporal frequency GCN and cross attention mechanisms

【字体: 时间:2025年11月30日 来源:Neuroscience 2.8

编辑推荐:

  GCANet通过融合时间-频率图卷积神经网络与跨模态注意力机制,有效捕捉EEG信号中复杂的时空特征与听觉刺激的交互关系,在三个公开数据集上显著提升听觉注意解码精度,发现短决策窗口下视觉干扰可能影响模型性能。

  
在复杂听觉环境中,人类能够通过选择性注意机制聚焦目标声音并抑制干扰信息,这一现象被称为“鸡尾酒会效应”。针对听障人士因听觉注意能力受限而影响沟通效率的问题,研究者开发了基于脑电信号(EEG)的听觉注意解码(AAD)技术。传统方法多采用线性模型或常规机器学习算法,例如通过前向模型编码声音特征到神经信号,或后向模型从神经信号重构声音信息,再结合支持向量机、线性判别分析等分类算法。这类方法在短决策窗口(如1秒内)的解码精度上存在显著短板,且难以有效捕捉大脑皮层不同区域间的动态交互。

近年来,深度学习在AAD领域展现出独特优势。早期研究主要基于卷积神经网络(CNN)处理时间或频域的EEG特征,例如通过双流CNN分别建模时域和频域特征(Vandecappelle等,2021)。后续工作尝试融合多维度信息,如DBPNet采用双分支并行结构同时处理时频特征(Ni等,2024),STANet引入空间注意力机制优化电极权重分配(Su等,2022),DARNet结合空间分布与双时域注意力机制(Yan等,2024)。这些改进显著提升了跨 trial 和跨 subject 的解码性能,但仍存在关键局限:现有方法普遍忽视EEG信号固有的图结构特性。

神经科学研究表明,大脑听觉皮层由额叶、颞叶等区域构成功能连接网络(Brunetti等,2005;Brown等,2006)。传统分析方法将电极视为独立单元,而忽略了相邻电极间存在的动态耦合关系。例如,当注意力转向右侧声源时,左侧颞叶与右侧额叶的协同激活模式会随之改变。这种空间关联信息对解码听觉注意方向具有关键作用,但现有方法多采用全局平均池化或固定权重矩阵处理电极信号,无法有效建模区域间的复杂交互。

基于此,研究团队提出GCANet模型,通过三个核心创新突破传统限制:首先,构建时间-频率联合图卷积网络(TFGCN),将EEG信号建模为具有时序连续性和频谱关联性的动态图结构。具体而言,网络将时间维度上相邻的EEG采样点视为图节点,同时通过傅里叶变换提取频域特征作为图边权重,从而建立时频统一的图表示。其次,引入跨模态注意力机制,动态调整EEG信号与声学特征间的交互权重。例如,在解码前注意方向时,模型会自动增强与目标声源空间位置相关的颞叶区域信号,同时抑制无关脑区干扰。最后,采用端到端架构实现全流程优化,从原始EEG信号直接输出注意力分配结果,避免多阶段处理带来的信息损失。

实验验证部分采用三个公开数据集展开对比研究:KUL数据集包含16名正常听力者对荷兰故事的注意分配记录;DTU数据集涉及多语言环境下的注意解码;AVGC数据集通过严格控制视觉刺激(如纯色背景)有效剥离了视觉干扰因素。研究发现,GCANet在短窗口(1秒)下的跨 trial 解码准确率达92.2%,显著优于传统方法(提升约15个百分点)。特别值得注意的是,在AVGC数据集的严格视觉隔离条件下,GCANet的跨 subject 解码性能仍保持75.1%的准确率,这表明模型成功剥离了视觉相关伪影的影响。

可视化分析揭示了模型对脑区交互的精准建模能力。通过分析跨注意力机制中的注意力矩阵,发现前额叶与颞叶的耦合强度与声音方位解码精度呈正相关。例如,当注意力转向右侧声源时,右侧颞叶与左侧额叶的图连接权重会动态增强,这种空间特征匹配机制显著提升了解码可靠性。定量分析表明,模型在0.5-2秒的窗口期内均能保持较高稳定性,这为实际应用中的实时解码提供了技术支撑。

研究还发现,传统方法在短窗口下的性能骤降与神经信号传播延迟有关。而GCANet通过时频联合建模,能够提前0.3-0.5秒捕捉到前额叶皮层在注意定向决策中的早期神经活动模式,这种时间分辨率优势在声源切换频率高于8Hz时尤为显著。此外,模型在跨数据集迁移测试中表现出良好的泛化能力,对KUL和DTU数据集的优化策略能自动适配到新场景,验证了其在真实复杂环境中的实用价值。

该研究为智能助听器开发提供了新思路。传统助听器通过降噪算法提升语音清晰度,但无法识别特定发言人或声源方位。GCANet模型可实时解码听觉注意焦点,结合外骨骼式脑机接口设备,未来有望实现自适应声场增强系统。例如,当用户注意力转向儿童的声音时,助听器可自动切换至该频段并增强相关声学特征。这种基于神经解码的智能听觉增强技术,在多重语音场景(如会议、课堂)中具有广阔应用前景。

研究同时揭示了跨模态注意力机制的可解释性优势。通过对比注意力权重分布,发现模型在解码左侧声源时更依赖右侧颞叶与前额叶的联合激活,而右侧声源则激活左侧颞叶与顶叶皮层的连接模式。这种与神经解剖学一致的注意力分配特征,为后续研究脑区协同机制提供了可验证的模型框架。后续工作可结合fMRI或MEG多模态数据,进一步解析不同信号层级的注意编码规律。

当前技术仍面临两个挑战:一是如何在移动设备上实现实时计算,需优化模型轻量化设计;二是如何处理非结构化噪声环境,需增强鲁棒性训练策略。但研究已证实,通过融合时频图卷积与动态跨模态注意力,不仅能有效克服传统方法在短窗口下的性能瓶颈,还能为理解人类听觉注意机制提供新的神经解码范式。这些突破性进展为脑机接口、智能假肢等脑信号应用领域开辟了新的技术路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号