基于特征解耦与多假设校准的视频人体姿态估计新框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月29日 来源：Pattern Recognition 7.5

编辑推荐：

　　为解决视频人体姿态估计(VHPE)中特征冗余和姿态模糊性问题，研究人员提出FDMC框架，通过分层表征解耦(HRD)模块实现特征降维，结合上下文感知多假设推理(CAMI)模块生成互补姿态假设。该方法在PoseTrack系列数据集上达到85.4 mAP，参数量仅9.2M，为复杂场景下的姿态估计提供新思路。

在计算机视觉领域，视频人体姿态估计(Video-based Human Pose Estimation, VHPE)一直是基础而富有挑战性的任务。这项技术需要从连续视频帧中精确定位人体关键点（如膝盖、脚踝等），其应用场景涵盖动作识别、三维姿态重建、智能监控等多个重要领域。尽管基于深度学习的方法在静态图像姿态估计上取得显著进展，但当面对视频中常见的快速运动、严重遮挡等复杂场景时，现有技术仍存在明显局限——它们往往直接提取混合的高维时空特征，却忽略了特征冗余问题；同时仅输出单一确定性姿态解，难以应对遮挡和模糊导致的姿态模糊性。

吉林大学人工智能学院的研究团队在《Pattern Recognition》发表的研究中，创新性地提出FDMC框架。该工作通过理论分析和实验验证发现，现有方法性能下降的核心原因在于：一是过度依赖包含冗余信息的混合特征（如背景干扰等）；二是未能建模遮挡/模糊场景下的多解可能性。针对这两个关键问题，研究人员设计了分层表征解耦(HRD)模块和上下文感知多假设推理(CAMI)模块，在PoseTrack2017/2018/21三个基准数据集上实现85.4 mAP的突破性性能，同时模型参数量降低60%。

关键技术方法包括：(1)采用互信息理论构建Orthogonality-Sufficiency Information(OSI)损失函数，指导HRD模块将原始特征分解为多个低维互斥子特征；(2)基于跨注意力机制设计CAMI模块，通过初始姿态热图与不同语义子特征的交互生成多组合理假设；(3)使用125%扩展边界框的时序采样策略，构建包含δ帧的输入序列X_tⁱ=〈I_t-δⁱ,...,I_tⁱ,...,I_t+δⁱ〉。

研究结果部分显示：

特征解耦有效性：HRD模块通过通道激活和像素级可变形调制，成功分离出包含快速/慢速运动、外观细节等不同语义的子特征（图5b-e），OSI损失使子特征间互信息降低37%。
多假设补偿机制：在严重遮挡场景下，CAMI模块生成的多个假设能覆盖72%的真实姿态模糊区域，通过假设聚合使关键点定位误差降低15.6%。
基准测试表现：在PoseTrack2018验证集上，FDMC以9.2M参数量达到84.2 mAP，较DCPose参数量减少23.1M但精度提升1.2%；在快速运动序列中，踝关节定位准确率提升19.3%。

结论部分指出，FDMC框架首次将互信息理论与多假设推理引入2D视频姿态估计领域：HRD模块通过理论驱动的特征解耦解决冗余问题，CAMI模块通过上下文感知建模弥补姿态模糊性。这项工作不仅为复杂场景下的姿态估计提供新范式，其提出的OSI损失和分支交互机制对视频理解任务具有普适指导意义。未来可进一步探索子特征自动语义发现、以及3D姿态估计中的多假设融合等方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号