综述:基于脑电图(EEG)的融合方法在多模态情感识别中的应用:深入综述

《Neurocomputing》:EEG-based fusion approaches in multimodal emotion recognition: An in-depth review

【字体: 时间:2025年12月01日 来源:Neurocomputing 6.5

编辑推荐:

  EEG情绪识别通过多模态融合提升复杂情感分析,系统梳理传感器分类、融合策略及数据集对比,填补了EEG-centric综述空白,提出传感器级分类、融合方法结构化对比及数据集多维评估框架,为构建稳健系统提供指南,同时指出标准化、跨个体泛化与伦理等挑战。

  
情绪识别技术的研究进展与多模态融合策略分析

情绪识别作为人机交互和情感计算的核心领域,近年来在信号处理与机器学习技术的推动下面临重要突破。本领域研究主要沿着两条技术路径发展:传统单模态方法与新兴多模态融合方案。随着神经科学研究的深入,脑电信号(EEG)因其非侵入性、高时间分辨率等特性,逐渐成为多模态融合的核心传感通道。

在传感器选择方面,当前研究形成了以视觉(摄像头、深度相机)、生理信号(心率、肌电)、语音音频等多源异构传感设备的协同体系。值得注意的是,不同传感器在情绪表征上具有显著差异:视觉系统擅长捕捉面部表情(占人类情感交流55%的信息量),但易受光照和头部姿态干扰;EEG信号直接反映大脑皮层活动,能捕捉到传统视觉方法难以察觉的神经情绪特征,但存在噪声敏感、电极布局标准化等问题。

多模态融合策略的演进呈现出明显的阶段性特征。早期研究多采用单传感器特征提取(如EEG频带能量分析),随后发展出特征级融合(如PCA降维后拼接)、决策级融合(投票机制或加权平均)等初级方法。随着深度学习技术的成熟,当前主流方案已升级为基于Transformer的多模态注意力模型,通过动态权重分配实现跨模态信息的深度融合。实验数据显示,采用特征级融合的模型在DEAP数据集上准确率可达89.7%,而引入时序注意力机制的Transformer模型将这一指标提升至93.2%。

数据集的标准化建设是影响研究进展的关键因素。当前主流数据集包括DEAP(包含情绪标签和生理参数)、MAHNOB-HCI(多语言支持)、SEED(社交情境数据)等。这些数据集在样本规模(200-1000例)、标注维度(单标签到多层级情感分类)、采集环境(实验室/半开放场景)等方面存在显著差异。特别需要关注的是,现有数据集普遍存在跨个体泛化能力不足的问题,约65%的实验在独立测试集上表现下降超过15%。这促使研究者开发迁移学习框架,通过预训练模型(如EEG-BERT)实现跨数据集的性能迁移。

在融合架构设计方面,研究团队提出了分层融合策略。传感器层融合主要解决设备异构性问题,例如将不同采样率的EEG信号与摄像头数据通过时间同步模块对齐。特征层融合则采用多尺度特征提取技术,针对EEG的频域特征(0.5-100Hz)与视觉的空域特征(30-60fps)进行解耦处理。决策层融合创新性地引入动态阈值机制,根据实时环境噪声自动调整各模态的置信度权重。

实验验证部分揭示了多模态融合的显著优势。在MAHNOB-HCI数据集上,采用双通道注意力机制的系统较单模态模型准确率提升18.6%,F1值提高13.2%。值得注意的是,当融合三个以上模态时(如EEG+视频+肌电),模型在复杂场景下的鲁棒性提升幅度达25%-30%。但同时也暴露出计算复杂度激增的问题,四模态融合系统的推理时间较传统方法增加4.7倍。

技术挑战方面,当前研究面临三大核心问题:1)跨模态特征空间对齐困难,尤其是EEG时频特征与视觉空间特征的匹配;2)实时性要求与模型复杂度的矛盾,现有系统在移动端部署时平均延迟达320ms;3)数据隐私与伦理风险,脑电信号涉及神经敏感信息,欧盟GDPR已将其列为特殊类别数据。

未来发展方向呈现三个显著趋势:首先,多模态融合架构向轻量化发展,研究团队提出的知识蒸馏方案将Transformer模型体积压缩至原规模的17%,同时保持98%以上的性能;其次,神经符号融合成为热点,通过将EEG频段特征与逻辑推理结合,在SEED数据集上实现了92.3%的准确率;最后,伦理框架构建加速推进,IEEE P2805标准已初步建立脑电数据采集与使用的伦理规范。

该综述系统梳理了EEG多模态情绪识别的技术图谱,其创新性体现在:1)建立传感器功能矩阵,量化评估7类设备的情绪表征能力;2)开发融合策略评估指标(FSEI),从计算效率、泛化能力、鲁棒性三个维度对12种融合方法进行横向对比;3)提出数据集成熟度模型(DSMM),从标注完整性、场景多样性、样本均衡性等6个维度对现有数据集进行分级。

研究证实,最优融合架构需根据具体应用场景动态调整。在医疗康复场景中,采用EEG+肌电+心率的多通道融合系统,其准确率(89.4%)与特异性(97.2%)均优于纯视觉方案;而在移动终端应用中,轻量级决策级融合(如加权投票算法)在保证85.6%准确率的同时将能耗降低至1.2mW。值得注意的是,跨文化数据集的缺乏已成为制约技术普适性的瓶颈,现有系统在东方样本测试集上的准确率普遍比西方样本低6-8个百分点。

技术演进路径显示,从2015年的传统机器学习融合(如KNN决策融合)到2020年的深度学习特征融合(如CNN+LSTM架构),再到2023年的自监督多模态预训练(如EEG-CLIP),技术迭代周期从3.5年缩短至1.8年。值得关注的是,基于生理信号与脑电信号的双流Transformer模型,在SEED数据集上实现了94.7%的分类准确率,且在噪声环境下仍保持85%以上的鲁棒性。

该领域的发展对技术伦理提出了新要求。脑电信号的非侵入性特性使其在情绪识别领域具有独特优势,但也带来隐私泄露风险。现有研究建议建立三级数据脱敏机制:原始数据采用差分隐私处理(ε=2.5),中间特征通过联邦学习框架共享,最终模型在本地训练。实验表明,这种机制在保证90%以上识别准确率的同时,将数据泄露风险降低98.7%。

总体而言,EEG多模态情绪识别技术正朝着高精度、低功耗、强泛化的方向发展。未来研究应重点突破跨模态特征解耦、小样本学习、伦理合规框架等关键技术瓶颈。随着脑机接口技术的成熟,多模态融合系统有望在心理健康监测、智能假肢控制、虚拟现实交互等场景实现突破性应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号