LightPose:一种面向工业疲劳检测的轻量化骨骼感知姿态估计框架
《Journal of Industrial Information Integration》:LightPose: A lightweight fatigue-aware pose estimation framework
【字体:
大
中
小
】
时间:2025年10月27日
来源:Journal of Industrial Information Integration 11.6
编辑推荐:
本文推荐研究人员针对智能制造中人体疲劳评估对低成本、高精度姿态估计技术的需求,提出了一种名为LightPose的轻量级人体姿态估计框架。该框架受骨骼分段原理指导,通过双流交叉监督(XS)机制增强局部几何一致性,并嵌入运动学约束和疲劳相关度量指标。实验结果表明,LightPose在标准3D姿态估计基准上以较低的计算成本(如4M MACs/帧)实现了有竞争力的精度(如Human3.6M上MPJPE为41.3 mm),并在疲劳相关运动学指标(如ROM、CRP、K-Score)估计上表现出色,为实时、非侵入式的工业疲劳分析提供了有前景的前端解决方案。
在当今快速发展的智能制造领域,人机协作日益紧密,但随之而来的是对操作人员健康与安全的更高要求。其中,人体疲劳作为一个关键因素,不仅影响工作效率,更直接关系到工作安全。研究表明,疲劳的员工出现工作损伤的风险几乎翻倍,其带来的经济和职业影响不容忽视。因此,在自适应、健康感知和符合人体工程学的生产环境中,对疲劳进行实时、准确的监测变得至关重要。传统的疲劳监测方法要么依赖于侵入式传感器,给操作者带来负担,要么计算成本高昂,难以在动态的工业环境中大规模部署。这凸显了对非侵入式、低成本且高效解决方案的迫切需求。
视觉为基础的人体姿态估计(Human Pose Estimation, HPE)技术为此提供了一条 promising 的路径。通过从RGB或深度图像中捕捉和解释人体骨骼运动,HPE能够实现非侵入式、实时的运动分析,而无需佩戴任何传感器。然而,将HPE应用于疲劳评估对模型的效率和可解释性提出了新的挑战,尤其是在动态或资源受限的场景下。许多基于深度学习的HPE方法依赖于ResNet、Hourglass或Vision Transformers等大型骨干网络,计算需求大、参数多,限制了其在工业或嵌入式环境中的实时部署。此外,尽管基于热图的表示和图结构优化提高了精度,但许多方法忽略了运动学一致性,特别是跨帧保持平滑且解剖学上合理的运动。上述差距凸显了对轻量级、精确且保持运动学合理性的姿态估计技术的迫切需求,以支持下一代制造系统中疲劳感知的操作。
为了应对这些挑战,发表在《Journal of Industrial Information Integration》上的这项研究提出了一个名为LightPose的新型框架。这项研究旨在开发一个轻量级的、疲劳感知的人体姿态估计框架,该框架能够平衡空间精度与计算效率,并特别关注与疲劳相关的运动模式。研究人员开展了一项整合解剖学先验知识、平衡姿态回归和疲劳指标优化的系统性研究。
为开展研究,作者主要应用了以下几个关键技术方法:首先,提出了一个受骨骼分段原理指导的双流交叉监督(Cross-Supervision, XS)机制,该机制通过同一骨骼分段上关节对之间的相互预测来增强局部几何一致性。其次,设计了一个轻量级的双流MobileOne-TCN网络架构(MobileOne-TCN),该架构结合了高效的MobileOne-S风格编码器和时序卷积网络(Temporal Convolutional Network, TCN),以实现快速的时空特征提取。此外,研究还引入了多种物理启发的正则化项,包括骨骼长度一致性约束(Lbone)、加速度平滑约束(Lacc)和频谱正则化(Lspec)等,并通过动态权重平均(Dynamic Weight Averaging, DWA)策略平衡多任务学习。最后,为了评估模型的疲劳感知能力,研究整合了多种经过生物力学文献验证的疲劳相关运动学指标,如关节活动范围(Range of Motion, ROM)、连续相对相位(Continuous Relative Phase, CRP)及其标准差(CRP-STD),以及控制平滑度指标K-Score。实验在多个标准数据集上进行,包括Human3.6M、MPI-INF-3DHP和TotalCapture,用于评估模型的3D姿态估计精度和疲劳相关运动学指标的保真度。
研究人员在Human3.6M和MPI-INF-3DHP等标准基准上评估了LightPose的效率和精度。结果表明,LightPose在Human3.6M上达到了41.3 mm的MPJPE(每关节位置平均误差),而每帧仅需4百万次乘加运算(MACs),在准确性和计算成本之间取得了良好的平衡。与MotionBERT、MixSTE等需要超过3亿MACs/帧的基于Transformer的模型相比,LightPose的性能-效率权衡更接近帕累托前沿。在MPI-INF-3DHP数据集上,LightPose使用81帧输入实现了18.17 mm的MPJPE,保持了与Human3.6M一致的精度水平,同时计算成本显著低于PoseMamba和MotionAGFormer等基线模型。这些结果凸显了LightPose作为资源受限应用的轻量高效解决方案的适用性。
4.2. TotalCapture上的疲劳导向评估
为了检验模型在保持疲劳相关运动学特征方面的能力,研究在TotalCapture数据集上进行了深入评估。该数据集具有更高的帧率和更多样化的动作,为评估精细的运动质量和控制稳定性提供了挑战性基准。研究人员比较了LightPose与两个参数量相当的基线模型(PoseMamba-S和MotionAGFormer-S)在ROM、CRP、CRP-STD和K-Score等指标上的表现。结果显示,LightPose在ROM估计上更接近真实趋势,尤其在上肢关节方面。在CRP和CRP-STD指标上,LightPose在大多数骨骼分段对上实现了更低的误差,反映了其更好地保持了生理协调模式。对于衡量控制平滑度的K-Score,LightPose consistently取得了最低的误差,并且在时间序列上与真实值曲线对齐良好。综合来看,LightPose在ROM、CRP、CRP-STD和K-Score上均取得了最低或次低的平均绝对误差(MAE)和均方根误差(RMSE),表明其在运动预测中具有较强的疲劳感知能力。
为了解各组件贡献,研究人员进行了系统的消融实验。在架构方面,比较了单流模型、共享编码器的双流模型(DS-Siamese)和独立编码器的双流模型(DS-Twin)。结果表明,采用交叉监督的DS-Siamese架构(即LightPose)取得了最佳的整体几何精度,相比单流基线在Human3.6M的P1误差上提升了14.8%,在MPI-INF-3DHP的MPJPE上提升了36.2%。与使用全局骨骼长度一致性(BL+AL)或逆运动学风格(IK-style)先验的模型相比,LightPose的局部分段耦合监督显示出优势。在损失函数方面,移除骨骼长度一致性损失(Lbone)或频谱正则化损失(Lspec)会导致姿态估计精度显著下降,而移除ROM特异性损失(LROM)和CRP特异性损失(LCRP)则分别使相应的疲劳指标误差增加10.6%和16.5%,证实了这些针对性损失项的必要性。
综上所述,本研究提出的LightPose框架有效解决了模型效率与生物力学保真度之间的长期权衡问题。其主要贡献在于引入了一种基于骨骼分段原理的双流交叉监督机制,该机制显式地指导模型架构和训练过程,从而在标准3D人体姿态估计基准上实现了有竞争力的精度,同时显著降低了计算成本。更重要的是,该框架展现出强大的能力,能够有效保持与疲劳相关的运动学特征,如关节活动范围、协调模式和运动控制平滑度。从应用角度看,LightPose为智能制造环境中的视觉基础疲劳监测提供了一个实用且可扩展的解决方案。其轻量级架构使其非常适合在边缘设备上实时部署,支持生产线上的非侵入式、低延迟人体状态监测和工效学评估。该研究为疲劳敏感监测和人机协作系统的未来发展提供了坚实的基础,并指出了将解剖学先验与高效模型设计相结合这一富有前景的研究方向。研究的局限性包括尚未包含用户级别的疲劳标注数据进行直接验证,以及未来可进一步扩展到多人场景和包含交互的工业活动。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号