启发式弱监督3D人体姿态估计:基于深度相机的新型迁移学习框架
《Computational Visual Media》:Heuristic weakly supervised 3D human pose estimation
【字体:
大
中
小
】
时间:2025年12月02日
来源:Computational Visual Media 18.3
编辑推荐:
本文针对目标域缺乏完整3D标注数据时3D人体姿态估计的迁移学习难题,提出了一种启发式弱监督3D人体姿态估计(HW-HuP)方法。该方法通过从通用3D姿态数据集中学习部分先验知识,并利用深度相机数据作为弱监督信号,在优化-回归循环中指导模型学习。实验表明,HW-HuP在成人卧床场景和大型公共3D人体姿态数据集上均显著优于现有最优模型,为解决医疗监测、婴儿行为分析等实际应用中的3D姿态估计问题提供了有效方案。
在当今计算机视觉领域,从二维图像中准确估计三维人体姿态一直是一个充满挑战的研究方向。虽然目前存在大量包含运动捕捉三维姿态数据与二维图像配对的大型通用数据集,但在许多实际应用场景中——如医院病房的患者行为监测或婴儿床活动监控——收集额外的运动捕捉数据几乎不可能。这种数据限制使得传统的微调迁移学习方法难以适用,因为运动捕捉需要专用标记、多摄像头系统和受控环境,成本高昂且操作复杂。
这一挑战在医疗监测等领域尤为突出。如图1所示,现有最先进的3D人体姿态和形状估计模型在卧床姿势估计任务中表现不佳,特别是在侧视角度下,预测结果与真实人体姿态存在明显偏差。当患者被被子覆盖或肢体相互遮挡时,问题更加严重。这凸显了开发能够适应特殊场景的3D姿态估计方法的迫切需求。
为了解决这一难题,来自东北大学增强认知实验室的Shuangjun Liu、Michael Wan和Sarah Ostadabbas研究团队在《Computational Visual Media》上发表了一项创新性研究,提出了启发式弱监督3D人体姿态估计(HW-HuP)方法。该方法的核心思想是:在无法获得目标域完整3D标注数据的情况下,利用廉价的现成RGB-D相机采集的深度信息作为弱监督信号,结合从源域学习的姿态先验知识,通过两阶段优化策略实现准确的3D人体姿态估计。
HW-HuP方法基于SPIN(SMPL优化在循环中)框架进行扩展,主要技术创新包括:1)选择性姿态先验迁移,通过指数衰减策略平衡源域先验与目标域数据的影响;2)粗粒度3D姿态监督(第一阶段),利用深度数据生成的代理3D坐标和可见性检测模型减少遮挡引起的误差;3)细粒度深度监督(第二阶段),通过可微分神经渲染器将预测的3D网格与观测深度图进行对齐。研究使用SLP(同时采集的多模态卧床姿势)数据集和Human3.6M等公共基准进行评估,所有模型均在NVIDIA Tesla K40m GPU上训练,批量大小为5×10-5。
HW-HuP扩展了SPIN方法,通过将深度数据以从粗到细的方式融入监督过程的两个阶段。与直接使用真实2D关节点xgt监督模型输出不同,该方法使用xgt通过SMPLify优化过程拟合图像,然后用优化得到的参数Θopt监督回归模型F。整体损失函数为:
Lreg(Θreg) = L2D(Θreg) + LSPIN(Θreg) + {L3D(Θreg), 第一阶段; Ldepth(Θreg), 第二阶段}
reg, Creg] with the outcome of the SMPLify 2D joint optimization, which incorporates heuristic prior information, 2D pose, as well as one of 3D based pipelines depending on the stage.'>
图3展示了HW-HuP的整体框架。在每个步骤中,HW-HuP通过结合启发式先验信息、2D姿态以及基于3D的管道(取决于阶段)的SMPLify 2D关节优化结果来监督回归函数F的姿势预测[Θreg, Creg]。
HW-HuP修改了SPIN中的SMPLify优化过程,引入了高斯混合模型(GMM)先验权重λθ = λθ,0fe的指数衰减机制。随着训练进行,源域先验的影响逐渐减弱,使主要身体部位更多地受目标域数据指导,而小身体部位则保留源域先验的影响。
第一阶段通过惩罚预测的3D关节位置Xreg与深度代理坐标Xdp之间的差异来监督回归器F。为了解决因遮挡导致的类型2误差,研究设计并训练了可见关节检测模型V,构建弱监督3D姿态损失:
L3D(Θreg) = Σ关节j V(j)‖Xreg(j) - Xdp(j)‖22
在严重遮挡的情况下,低可见度防止Xdp(j)在反向传播中传递潜在错误信号。
图2展示了深度代理点相对于真实关节位置的偏差。(a)不均匀形状的单个身体,(b)有遮挡的双身体,以及(c)人体的右髋部。
第二阶段利用成功的2D和3D对齐,通过完整深度数据D进行细粒度深度监督,进一步优化估计并减少类型1误差。使用可微分神经渲染器(NR)生成预测3D身体网格M(Θreg)对应的深度图DNR,使其与观测深度D对齐。细粒度深度损失为:
Ldepth(Θreg) = ‖D - b0 - DNR‖2,?2
其中‖·‖2,?是仅在掩模?上的L2范数,b0是使用虚焦距引入的偏差的校正因子。
在SLP卧床姿势数据集上的评估表明,HW-HuP在"无覆盖"条件下的对齐深度误差为36.01mm,显著优于SPIN(68.38mm)和HMR(63.43mm)。消融研究结果显示,增强的深度代理监督(3D-dp)本身就将性能提升到了SPIN和HMR之上,可见性监督(3D-dp-vis)或完整深度监督(完整HW-HuP模型)都进一步改善了性能。
图4展示了在SLP数据集上使用"无覆盖"RGB图像的3D人体姿态和形状估计结果。上图:仰卧姿势,下图:侧卧姿势。不自然或不良预测用红色标出,HW-HuP特别成功的头部姿态预测用绿色矩形标出。
定性结果显示,SPIN倾向于遵循日常活动的源先验,如仰卧时手伸出和侧卧时双腿叉开。3D-dp对仰卧姿势通常令人满意,因为这些姿势通常表现出较少的肢体遮挡,但局部缺陷仍然存在。相比之下,完整的HW-HuP模型处理了所有这些错误。没有源先验(noPrior)时,主要肢体对齐良好,但小身体部位扭曲。
HW-HuP设计用于在RGB以外的模态下也能良好工作,这在具有挑战性的条件下非常有用,如严重遮挡和完全黑暗。研究在单个非RGB模态上训练HW-HuP,用代表新模态的单通道替换整个网络中的三个RGB通道。使用的输入模态包括长波红外(LWIR)数据、压力图(PM)数据和深度数据D本身。还测试了组合的三通道模态。
图5展示了HW-HuP模型应用于SLP数据集中具有严重遮挡(厚毯子)的示例图像时的3D人体姿态和形状估计,分别在深度、长波红外(LWIR)、压力图(PM)以及三者组合的输入模态下。
表2结果显示,HW-HuP在这些具有挑战性的条件下仍然有效。如预期,无覆盖条件下性能最佳,但在其他设置下仍然合理。由于深度也用于确定误差,深度模态结果最强并不奇怪。
为了展示HW-HuP的泛化能力,将其应用于Human3.6M公共基准测试。如表3所示,HW-HuP在Procrustes分析(PA)对齐后的平均每关节位置误差(MPJPE)为50.4mm,显著优于SPIN(62.0mm)和HMR(66.5mm)等现有最先进方法。
图6展示了HW-HuP应用于Human3.6M验证数据集的3D人体姿态和形状估计结果。上图:输入RGB图像。第二和第三行:HW-HuP姿态预测的前视图和侧视图。
本研究提出的HW-HuP方法为解决3D人体姿态估计中的迁移学习难题提供了创新性解决方案。通过在源域先验和目标域易获取观测之间进行选择性学习,该方法能够在具有挑战性的条件下产生稳健的3D姿态估计。由于HW-HuP仅依赖现成的深度相机进行训练,它有望解决实际场景中的一系列3D人体姿态问题,特别是在运动捕捉训练数据不可行的情况下。
可能的应用包括医疗设施中的患者监测、摇篮或婴儿床中的婴儿运动分析、驾驶舱中的飞行员训练观察以及汽车内部的驾驶员行为或手势识别。该方法在卧床姿势估计和大型公共基准测试中的优异表现,证明了其在现实世界应用中的巨大潜力。
这项研究的创新之处在于它巧妙地将弱监督学习与迁移学习相结合,通过两阶段优化策略逐步细化3D姿态估计结果。选择性先验迁移机制确保模型既能从大规模数据集中受益,又能适应目标域的特殊特性;可见性感知的损失函数设计有效解决了深度数据中的遮挡问题;而可微分渲染器的使用则实现了从图像空间到3D空间的端到端监督。
HW-HuP框架的灵活性使其能够处理多种输入模态,包括RGB、深度、长波红外和压力图数据,这大大扩展了其应用范围。特别是在医疗监测领域, where 隐私保护和全天候监控至关重要,非RGB模态(如热成像)的应用可以避免隐私问题同时提供可靠的姿态信息。
未来,随着深度传感技术的普及和计算能力的提升,这种仅需廉价硬件支持的高效3D姿态估计方法有望在智能医疗、人机交互、虚拟现实等领域发挥重要作用,为基于视觉的行为分析开辟新的可能性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号