CFGMamba:基于跨帧分组状态空间模型的视频抑郁症识别新框架

【字体: 时间:2025年06月13日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  针对视频抑郁症识别中CNN感受野受限和Transformer计算复杂度高的问题,清华大学团队提出CFGMamba框架。该研究通过跨帧分组策略和3D时空双向扫描机制(3DBSM),以线性复杂度建模长程时空依赖,在AVEC 2013/2014数据集上取得MAE/RMSE 6.01/7.59和5.96/7.52的优异表现,为临床抑郁筛查提供新思路。

  

在心理健康领域,抑郁症如同无形的枷锁,全球约2.8亿患者深受其苦。传统诊断依赖主观量表,而基于视频的行为分析技术正成为突破口。现有方法中,卷积神经网络(CNN)虽能捕捉局部表情特征,却受限于"视野狭窄";Transformer虽具全局感知力,但其自注意力机制(MHA)的O(n2
)复杂度让长视频分析成为算力黑洞。更棘手的是,抑郁患者的微表情变化往往分散在视频不同时段,如何高效捕捉这些"情绪碎片"成为关键挑战。

清华大学团队在《Biomedical Signal Processing and Control》发表的这项研究,创新性地将状态空间模型(SSM)引入心理健康领域。他们开发的CFGMamba框架,通过"时间切片+空间扫描"的组合拳,在AVEC 2013/2014数据集上实现MAE 6.01的突破,其核心在于三个关键技术:1)跨帧分组策略将视频按时间窗分割,减少冗余计算;2)3D时空曼巴模块(3DSTMamba)实施双向扫描,同时捕捉单帧内五官关联和跨帧情绪演变;3)多阶段下采样架构逐步提炼从宏观表情到微观肌肉抽动的多层次特征。

方法精要
研究采用AVEC 2013/2014和EmoReact三个公开数据集,通过3D卷积提取初始特征后,CFGMamba将视频分割为4秒的非重叠片段组。每个片段经3DBSM机制进行时空双向扫描,其中空间维度采用类QuadMamba的四叉树扫描路径,时间维度则通过可学习的位置嵌入建立帧间关联。FDFFN模块专门强化眉间纹、嘴角下垂等抑郁关键微表情特征。

关键发现

  1. 跨帧分组有效性:相比直接处理全视频,分组策略使GPU内存占用降低37%,而情绪特征判别力提升12.6%。
  2. 3DBSM机制优势:在EmoReact数据集上,双向扫描使F1-score达0.75,较单向扫描提升9.3%。
  3. 多尺度特征融合:深层网络捕获的持续型表情(如长时间凝视)与浅层捕捉的瞬时微表情(如快速抿嘴)形成互补。

临床启示
这项研究突破了传统视频分析"算力换精度"的困局:1)线性复杂度使手机端实时分析成为可能;2)时空联合建模首次实现从单帧表情到情绪演变轨迹的全周期捕捉。作者指出,未来可结合语音和生理信号构建多模态CFGMamba,并探索该框架在双相障碍识别中的迁移潜力。正如论文通讯作者Yuanyuan Shang强调:"这不仅是算法的革新,更为精神健康监测提供了可落地的AI工具。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号