基于3D-CNN-MSTA-Transformer的脑电信号多维度情感识别模型研究
《Scientific Reports》:Fusion of EEG feature extraction and CNN-MSTA transformer emotion recognition classification model
【字体:
大
中
小
】
时间:2025年12月14日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对脑电信号情感识别中特征提取不充分和模型计算复杂度高的问题,提出了一种融合三维特征提取与多尺度稀疏时序自编码Transformer的创新模型。通过3D-CNN模块分解卷积核降低计算成本,结合改进的MSTA-Transformer模块捕获长程时序依赖,在SEED系列数据集上准确率最高达92.97%,显著优于ResNet-34等经典模型。该研究为生理信号情感识别提供了新的技术路径,对脑机接口和心理健康监测具有重要应用价值。
当我们试图让机器理解人类情绪时,脑电信号(EEG)就像一扇隐藏的窗户。但如何从这些复杂的大脑电活动中准确捕捉情感信息,一直是科研人员面临的挑战。传统方法往往难以兼顾时空频三维特征,而深度模型又面临计算复杂度高的困境。正是在这样的背景下,褚文娟团队在《Scientific Reports》上发表了一项突破性研究。
为了攻克这一难题,研究人员设计了一种名为3D-CNN-MSTA-Transformer的创新模型。该模型首先通过独创的三维特征组织方法,将62通道的脑电信号转化为包含空间、时间和频率信息的立体矩阵。特别值得一提的是,该研究突破了传统50Hz频率限制,首次将51-75Hz高频波段纳入分析范围。在特征处理阶段,团队采用伪3D卷积思想,将传统3D卷积核分解为2D-CNN和1D-CNN卷积核,这一巧妙的设计使得计算成本大幅降低。最终,通过多尺度稀疏时序自编码器(MSTA)和Transformer的协同工作,模型实现了对情感特征的精准捕获。
关键技术方法包括:基于差分熵(Differential Entropy)的三维特征提取、卷积核分解技术、稀疏自编码器(SAE)轻量化设计、随机方差缩减梯度(SVRG)优化算法,实验采用上海交通大学BCMI实验室提供的SEED系列数据集(含15名受试者的多时段脑电记录),通过5折交叉验证确保结果可靠性。
在SEED数据集上,模型对"平静"情绪的识别准确率(P)达95.113±1.0%,召回率(R)为93.347±1.2%,F1值达到94.216±1.1%。在SEED-IV-1数据集上,"快乐"情绪的识别性能尤为突出,准确率提升至96.732±0.9%。值得注意的是,模型在保持高精度的同时,计算时间仅需3.006秒,远低于ResNet-34的8.524秒。
混淆矩阵分析发现,恐惧和悲伤情绪存在较高误判率。通过脑电频带分析发现,这两种情绪在θ(4-7Hz)和α(8-13Hz)频段的功率谱密度具有相似性,且在前额叶电极通道都呈现较慢的变化模式,这揭示了不同情绪在神经机制上的内在联系。
消融实验进一步证实了各模块的贡献度:移除稀疏自编码器模块会使准确率下降2.712%-4.186%,而隐藏空间嵌入模块的缺失导致性能下降最高达7.108%。数据量实验表明,当脑电信号帧数从4帧增加至16帧时,模型识别性能呈现持续提升趋势,说明更丰富的时序信息有助于捕捉细微情感变化。
该研究的创新之处在于成功构建了一个兼顾精度与效率的情感计算框架。通过三维特征提取和卷积核分解技术,模型在保持高性能的同时显著降低了计算复杂度。实验证明,该方法在多个数据集上均优于传统CNN模型和标准Transformer,为实时情感识别应用奠定了基础。
展望未来,研究人员指出跨文化情感识别、多模态信息融合(如结合心电ECG、皮电GSR等信号)以及实时嵌入式系统开发将是重要发展方向。这项研究不仅推进了情感计算领域的技术边界,更为心理健康监测、人机交互等应用场景提供了新的技术支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号