结合线姿态图的光谱压缩变换器在单目3D人体姿态估计中的应用
《Pattern Recognition》:Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation
【字体:
大
中
小
】
时间:2025年10月02日
来源:Pattern Recognition 7.6
编辑推荐:
针对基于Transformer的3D人体姿态估计计算成本高、序列冗余问题,提出光谱压缩Transformer(SCT)和线姿态图(LPG)。SCT利用离散余弦变换压缩时序特征,减少自注意力计算量;LPG通过骨骼连接关系增强先验信息。双流架构结合时空特征学习,实验表明在Human3.6M和MPI-INF-3DHP数据集上,模型精度达37.7mm,推理速度提升近两倍。
Transformer模型在3D人体姿态估计中的应用虽取得了显著成果,但其计算成本高、处理长序列时效率低下等问题依然存在。特别是自注意力机制的二次复杂度特性,使得当输入序列长度增加时,计算负担急剧上升。针对这一挑战,本文提出了一种名为Spectral Compression Transformer(SCT)的新型架构,并结合Line Pose Graph(LPG)技术,旨在有效减少姿态序列中的冗余信息,同时提升模型的推理效率和精度。
3D人体姿态估计(3D HPE)的目标是从2D图像或视频中定位人体的3D关节点。单目3D姿态估计因其无需依赖多视角数据,更适合应用于动作识别、人机交互和自动驾驶等实际场景。目前,大多数先进的3D姿态估计方法依赖于2D姿态检测器的输出,通过2D到3D的映射技术来重建3D关节点。然而,随着视频序列长度的增加,自注意力机制的计算复杂度迅速上升,给实际部署带来了困难。
在视频姿态估计中,序列长度通常较长,这使得自注意力机制的计算开销变得不可忽视。例如,当序列长度达到243或351帧时,计算量将显著增加,导致推理速度下降。与此同时,视频序列往往存在显著的信息冗余,尤其是在高速摄像机拍摄的视频中,相邻帧之间姿态变化较小,导致大量重复信息。这种冗余不仅浪费了计算资源,还可能影响模型的精度。因此,如何在不丢失关键信息的前提下,减少序列长度,提高计算效率,成为研究的重点。
为了解决上述问题,本文提出了一种基于频域压缩的Transformer架构——Spectral Compression Transformer(SCT)。SCT的核心思想是将视频序列中的隐藏特征视为时间信号,并通过离散余弦变换(DCT)来提取其频域成分。通过对DCT结果的分析,我们发现大部分隐藏特征的信息集中在低频部分,而高频部分则主要包含噪声。因此,通过应用低通滤波器,我们可以有效地去除这些高频噪声,从而压缩序列长度并减少冗余。
此外,为了进一步丰富输入序列的先验信息,本文还引入了基于线图理论的Line Pose Graph(LPG)。LPG将人体骨骼视为图中的顶点,将关节连接关系作为边。通过这种顶点与边的转换方式,LPG能够捕捉骨骼的结构信息,并将其与2D关节位置相结合,从而增强模型对姿态的先验理解。这种方法不仅保留了2D姿态检测的准确性,还通过结构信息的引入,提升了模型在复杂姿态任务中的表现。
为了更全面地建模姿态序列中的时空关系,本文设计了一种双流网络架构。该架构包括两个并行的分支:一个是用于学习压缩后的时空特征,另一个是用于恢复原始时间分辨率。通过双流机制,模型能够在保持高效计算的同时,兼顾姿态序列的空间和时间特性。在压缩阶段,模型对隐藏特征进行频域分析,选择保留关键信息并去除冗余;在恢复阶段,采用无参数的上采样方法,将压缩后的特征重新扩展为原始时间分辨率,从而确保姿态序列的完整性。
为了验证SCT和LPG的有效性,本文在两个广泛使用的3D姿态估计基准数据集上进行了大量实验:Human3.6M和MPI-INF-3DHP。实验结果表明,SCT不仅显著提升了模型的推理速度,还在保持高精度的同时降低了计算成本。具体而言,在Human3.6M数据集上,SCT达到了37.7mm的领先精度,其推理速度几乎达到了MotionBERT的两倍。在MPI-INF-3DHP数据集上,SCT同样表现出色,相较于HoT等加速方法,在MPJPE指标上具有明显优势。
为了进一步验证SCT的泛化能力,本文将该方法应用于其他主流的Transformer架构,如PoseFormerV2等。实验结果显示,无论采用哪种基础模型,SCT都能有效减少计算成本,同时保持较高的姿态估计精度。此外,本文还进行了消融实验,评估了各个模块对模型性能的具体贡献。结果表明,SCT和LPG的结合对提升模型效率和精度具有重要作用。
本文的主要贡献可以总结为以下三点:首先,通过频域压缩技术,SCT有效减少了姿态序列中的冗余信息,提高了模型的计算效率;其次,LPG作为一种简单而有效的结构增强方法,能够丰富输入序列的先验信息,提升模型的表达能力;最后,所提出的SCTFormer-LPG模型在两个基准数据集上均取得了最先进的性能,同时在计算效率和推理速度方面表现出色。
总的来说,本文提出了一种新颖且高效的3D人体姿态估计方法,通过频域压缩和结构增强技术,有效解决了传统Transformer模型在处理长视频序列时的计算瓶颈问题。该方法不仅适用于单目视频姿态估计,也为其他基于Transformer的视觉任务提供了新的思路和工具。未来,我们将进一步探索SCT和LPG在更多应用场景中的潜力,并尝试将其应用于更复杂的姿态任务,如多人姿态估计、姿态动作识别等。此外,我们还将研究如何在更少计算资源下实现更高的精度,以推动3D姿态估计技术的广泛应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号