基于特征解耦与多假设校准的视频人体姿态估计新框架

【字体: 时间:2025年07月29日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决视频人体姿态估计(VHPE)中特征冗余和姿态模糊性问题,研究人员提出FDMC框架,通过分层表征解耦(HRD)模块实现特征降维,结合上下文感知多假设推理(CAMI)模块生成互补姿态假设。该方法在PoseTrack系列数据集上达到85.4 mAP,参数量仅9.2M,为复杂场景下的姿态估计提供新思路。

  

在计算机视觉领域,视频人体姿态估计(Video-based Human Pose Estimation, VHPE)一直是基础而富有挑战性的任务。这项技术需要从连续视频帧中精确定位人体关键点(如膝盖、脚踝等),其应用场景涵盖动作识别、三维姿态重建、智能监控等多个重要领域。尽管基于深度学习的方法在静态图像姿态估计上取得显著进展,但当面对视频中常见的快速运动、严重遮挡等复杂场景时,现有技术仍存在明显局限——它们往往直接提取混合的高维时空特征,却忽略了特征冗余问题;同时仅输出单一确定性姿态解,难以应对遮挡和模糊导致的姿态模糊性。

吉林大学人工智能学院的研究团队在《Pattern Recognition》发表的研究中,创新性地提出FDMC框架。该工作通过理论分析和实验验证发现,现有方法性能下降的核心原因在于:一是过度依赖包含冗余信息的混合特征(如背景干扰等);二是未能建模遮挡/模糊场景下的多解可能性。针对这两个关键问题,研究人员设计了分层表征解耦(HRD)模块和上下文感知多假设推理(CAMI)模块,在PoseTrack2017/2018/21三个基准数据集上实现85.4 mAP的突破性性能,同时模型参数量降低60%。

关键技术方法包括:(1)采用互信息理论构建Orthogonality-Sufficiency Information(OSI)损失函数,指导HRD模块将原始特征分解为多个低维互斥子特征;(2)基于跨注意力机制设计CAMI模块,通过初始姿态热图与不同语义子特征的交互生成多组合理假设;(3)使用125%扩展边界框的时序采样策略,构建包含δ帧的输入序列Xti=〈It-δi,...,Iti,...,It+δi〉。

研究结果部分显示:

  1. 特征解耦有效性:HRD模块通过通道激活和像素级可变形调制,成功分离出包含快速/慢速运动、外观细节等不同语义的子特征(图5b-e),OSI损失使子特征间互信息降低37%。
  2. 多假设补偿机制:在严重遮挡场景下,CAMI模块生成的多个假设能覆盖72%的真实姿态模糊区域,通过假设聚合使关键点定位误差降低15.6%。
  3. 基准测试表现:在PoseTrack2018验证集上,FDMC以9.2M参数量达到84.2 mAP,较DCPose参数量减少23.1M但精度提升1.2%;在快速运动序列中,踝关节定位准确率提升19.3%。

结论部分指出,FDMC框架首次将互信息理论与多假设推理引入2D视频姿态估计领域:HRD模块通过理论驱动的特征解耦解决冗余问题,CAMI模块通过上下文感知建模弥补姿态模糊性。这项工作不仅为复杂场景下的姿态估计提供新范式,其提出的OSI损失和分支交互机制对视频理解任务具有普适指导意义。未来可进一步探索子特征自动语义发现、以及3D姿态估计中的多假设融合等方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号