利用大型语言模型进行参数高效的动作规划,以实现视觉与语言导航
《Pattern Recognition》:Parameter-Efficient Action Planning with Large Language Models for Vision-and-Language Navigation
【字体:
大
中
小
】
时间:2025年10月02日
来源:Pattern Recognition 7.6
编辑推荐:
3D人体姿态估计中提出光谱压缩Transformer和线姿态图,通过DCT变换压缩帧间冗余信息并增强先验知识,结合双流网络架构实现高效计算与高精度估计。
本文介绍了一种名为Spectral Compression Transformer(SCT)的新型模型,结合了Line Pose Graph(LPG)技术,旨在提升3D人体姿态估计(HPE)在处理长视频序列时的计算效率和准确性。3D人体姿态估计的目标是从2D图像或视频中定位出人体的3D关节位置,这一任务在动作识别、人机交互以及自动驾驶等领域具有重要应用价值。目前,大多数3D HPE方法依赖于2D到3D的提升技术,其中两阶段方法使用现成的2D HPE模型检测关节位置,再通过提升模型生成3D姿态。然而,这种技术在处理长视频序列时面临计算成本高的问题,因为基于Transformer的自注意力机制在处理长序列时呈现出二次复杂度增长,导致计算负担显著增加。
为了解决这一问题,研究团队提出了一种创新的SCT模块,该模块通过对视频序列中块间的隐藏特征进行频谱压缩,从而减少序列长度并提升计算效率。具体而言,SCT编码器将块间的隐藏特征视为时间特征信号(TFS),并应用离散余弦变换(DCT)这一基于傅里叶变换的技术,确定需要保留的频谱成分。通过滤除部分高频噪声成分,SCT有效压缩了时间序列,减少了冗余信息。此外,为了进一步丰富输入序列的先验结构信息,研究团队还提出了基于线图理论的Line Pose Graph(LPG)。LPG将人体的骨骼作为图中的顶点,用关节连接相邻骨骼,形成一种新的结构表示方式。通过这种顶点与边的转换方法,LPG能够充分表达骨骼的先验信息,并生成更加丰富的2D姿态信息,从而增强模型的性能。
研究团队还设计了一种双流网络架构,以同时建模空间关节关系和压缩后的运动轨迹。这种架构使得模型能够从时间和空间两个维度全面学习姿态序列的特征,从而在保持准确性的前提下,提升推理速度。为了验证SCT和LPG的有效性,研究团队在两个基准数据集Human3.6M和MPI-INF-3DHP上进行了大量实验。实验结果表明,所提出的模型在准确性和计算效率方面均优于现有方法。例如,在Human3.6M数据集上,模型的平均姿态关节误差(MPJPE)达到了37.7毫米,推理速度几乎达到了MotionBERT的两倍。与HoT等加速方法相比,SCT在MPJPE指标上具有明显优势。此外,研究团队还将SCT模块应用于其他主流网络结构,结果表明在保持准确性的前提下,计算成本得到了有效降低。
除了SCT模块,LPG的引入也是本文的重要贡献之一。传统的2D姿态估计方法在处理长视频序列时往往面临信息局限的问题,因为相邻帧之间可能存在高度相似的关节位置,导致冗余信息较多。而LPG通过将骨骼视为图的顶点,将关节视为边,能够有效捕捉人体的拓扑结构信息,从而增强输入序列的先验信息。这种方法不仅简单直观,而且能够生成与原始2D关节位置互补的骨骼坐标信息,进一步提升了模型的性能。
在实验设计方面,研究团队对两个基准数据集进行了全面评估。Human3.6M是一个包含3.6百万视频帧的室内场景数据集,涵盖了11名专业演员在4个同步摄像机视角下执行的15种动作。为了验证模型的泛化能力,研究团队采用了5名演员的数据用于训练,2名用于测试。MPI-INF-3DHP则是另一个广泛使用的3D HPE数据集,同样适用于评估模型在不同场景下的表现。在评估指标上,研究团队采用了与先前工作一致的方法,通过两种协议对模型性能进行衡量,以确保结果的全面性和可靠性。
此外,研究团队还进行了消融实验,以评估各个模块对模型性能的具体贡献。这些实验帮助团队进一步优化了SCT和LPG的设计,并验证了双流网络架构在提升模型效率和准确性方面的有效性。实验结果显示,所提出的模型在保持高精度的同时,显著降低了计算成本,并实现了更快的推理速度。这些结果表明,SCT和LPG的结合为3D人体姿态估计提供了一种新的有效解决方案。
从方法论的角度来看,本文的研究工作主要集中在如何通过信号处理技术优化Transformer架构,以提升其在长视频序列中的表现。研究团队将块间的隐藏特征视为时间信号,通过频谱分析识别出冗余信息,并采用频谱压缩技术减少计算负担。同时,通过引入LPG,研究团队不仅增强了输入序列的先验信息,还为模型提供了更丰富的结构特征。这种结合时间与空间信息的方法使得模型能够更全面地理解人体姿态的变化规律,从而在实际应用中表现出更高的鲁棒性和准确性。
在实际应用中,3D人体姿态估计对于实时性和准确性有较高要求,尤其是在自动驾驶、虚拟现实和动作捕捉等场景下。因此,本文提出的SCT和LPG技术具有重要的现实意义。通过减少序列长度和冗余信息,SCT能够显著降低计算成本,使得模型在处理长视频序列时更加高效。而LPG则通过增强输入序列的先验信息,使得模型能够更好地理解人体结构,从而在预测过程中获得更高的准确性。这种双重优化使得模型在保持高精度的同时,能够实现更快的推理速度,满足实际应用的需求。
研究团队还通过实验验证了SCT和LPG在不同网络结构中的通用性。例如,将SCT模块应用于其他主流的Transformer架构后,实验结果表明模型在保持准确性的前提下,计算成本得到了有效降低。这表明SCT不仅适用于特定的模型,还具有较强的可扩展性和适应性。此外,研究团队还对LPG模块进行了深入分析,发现其在增强先验信息方面具有显著优势,能够有效提升模型的预测能力。
总体而言,本文的研究工作为3D人体姿态估计提供了一种新的有效解决方案,特别是在处理长视频序列时。通过引入SCT和LPG技术,研究团队成功降低了计算成本,提升了推理速度,并增强了模型的准确性。这些成果不仅推动了3D HPE领域的发展,也为后续研究提供了新的思路和方法。未来的研究方向可能包括进一步优化频谱压缩算法,探索更多结构信息的增强方法,以及将这些技术应用于更复杂的场景中。此外,研究团队还计划在实际应用中测试这些技术的性能,以验证其在现实场景中的有效性。
最后,本文的研究团队还强调了代码的可获取性,所有实验代码均已开源,方便后续研究者进行复现和改进。这不仅有助于推动该领域的研究进展,也为实际应用提供了便利。通过开源代码,研究团队希望更多人能够参与到3D HPE技术的优化和创新中,共同推动该技术的发展。同时,研究团队也希望通过进一步的实验和研究,探索SCT和LPG在其他任务中的应用潜力,例如在动作识别、视频摘要和人机交互等领域。这些探索将为3D HPE技术的广泛应用提供更多的可能性和方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号