
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于特征解耦与多假设校准的视频人体姿态估计新框架
【字体: 大 中 小 】 时间:2025年07月29日 来源:Pattern Recognition 7.5
编辑推荐:
为解决视频人体姿态估计(VHPE)中特征冗余和姿态模糊性问题,研究人员提出FDMC框架,通过分层表征解耦(HRD)模块实现特征降维,结合上下文感知多假设推理(CAMI)模块生成互补姿态假设。该方法在PoseTrack系列数据集上达到85.4 mAP,参数量仅9.2M,为复杂场景下的姿态估计提供新思路。
在计算机视觉领域,视频人体姿态估计(Video-based Human Pose Estimation, VHPE)一直是基础而富有挑战性的任务。这项技术需要从连续视频帧中精确定位人体关键点(如膝盖、脚踝等),其应用场景涵盖动作识别、三维姿态重建、智能监控等多个重要领域。尽管基于深度学习的方法在静态图像姿态估计上取得显著进展,但当面对视频中常见的快速运动、严重遮挡等复杂场景时,现有技术仍存在明显局限——它们往往直接提取混合的高维时空特征,却忽略了特征冗余问题;同时仅输出单一确定性姿态解,难以应对遮挡和模糊导致的姿态模糊性。
吉林大学人工智能学院的研究团队在《Pattern Recognition》发表的研究中,创新性地提出FDMC框架。该工作通过理论分析和实验验证发现,现有方法性能下降的核心原因在于:一是过度依赖包含冗余信息的混合特征(如背景干扰等);二是未能建模遮挡/模糊场景下的多解可能性。针对这两个关键问题,研究人员设计了分层表征解耦(HRD)模块和上下文感知多假设推理(CAMI)模块,在PoseTrack2017/2018/21三个基准数据集上实现85.4 mAP的突破性性能,同时模型参数量降低60%。
关键技术方法包括:(1)采用互信息理论构建Orthogonality-Sufficiency Information(OSI)损失函数,指导HRD模块将原始特征分解为多个低维互斥子特征;(2)基于跨注意力机制设计CAMI模块,通过初始姿态热图与不同语义子特征的交互生成多组合理假设;(3)使用125%扩展边界框的时序采样策略,构建包含δ帧的输入序列Xti=〈It-δi,...,Iti,...,It+δi〉。
研究结果部分显示:
结论部分指出,FDMC框架首次将互信息理论与多假设推理引入2D视频姿态估计领域:HRD模块通过理论驱动的特征解耦解决冗余问题,CAMI模块通过上下文感知建模弥补姿态模糊性。这项工作不仅为复杂场景下的姿态估计提供新范式,其提出的OSI损失和分支交互机制对视频理解任务具有普适指导意义。未来可进一步探索子特征自动语义发现、以及3D姿态估计中的多假设融合等方向。
生物通微信公众号
知名企业招聘