利用混合分支图卷积网络进行人体运动预测
《Engineering Applications of Artificial Intelligence》:Human motion prediction using Mixture-of-Branch Graph Convolutional Network
【字体:
大
中
小
】
时间:2025年10月02日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文提出一种混合分支图卷积网络模型(MoB-GCN),通过分支权重分配模块和多个预测分支解决多类型人体动作预测中的相互干扰问题,并采用自适应空间时间特征提取方法减少几何变换影响,在多个数据集上验证其性能提升。
本文提出了一种名为Mixture-of-Branch Graph Convolutional Network(MoB-GCN)的新模型,用于解决在人类动作预测中,使用相同的时空特征提取网络来预测多种类型动作时,模型难以达到最优性能的问题。这一问题主要源于不同动作序列在训练过程中可能相互影响,导致模型无法专注于某些特定动作的预测。为此,研究团队设计了一个包含多个分支的预测模块和一个用于分配各分支权重的模块,通过引入竞争性的损失函数,使得各个分支能够在训练过程中相互竞争,从而找到各自擅长处理的动作类型。
在模型的构建过程中,研究人员还提出了一种适应于欧几里得几何变换的时空特征提取方法。这一方法的核心在于识别并提取出在动作序列发生平移或旋转时仍然保持不变的特征,称为“模式特征”。这些模式特征能够捕捉到动作序列中相邻帧之间的关系以及不同关节之间的关联性。通过利用这些模式特征,MoB-GCN模型可以更有效地训练时空注意力矩阵,从而在特征提取过程中保留欧几里得几何变换的信息。这种设计使得模型在处理具有不同几何变换的动作序列时,能够保持较高的预测精度,而无需引入额外的分支来处理不同的变换情况。
为了进一步提升模型的效率和性能,研究团队在实验中对多个动作预测任务进行了测试。其中包括Human3.6M、Carnegie Mellon University Motion Capture(CMU Motion Capture)以及Three-Dimensional Human Pose in the Wild(3DHP)等公开数据集。在这些数据集上,MoB-GCN模型展现出了优越的表现,尤其是在CMU Motion Capture数据集上,其在均关节位置误差(Mean Per Joint Position Error, MPJPE)的预测任务中实现了7%的整体性能提升。这一结果表明,该模型在处理复杂动作序列时具有更强的适应性和准确性。
MoB-GCN模型的结构主要由两个部分组成:分支权重分配模块和多分支人类动作预测模块。在训练阶段,模型通过引入一个竞争性的损失函数,使得各个分支能够根据自身的性能表现获得不同的权重。这种机制不仅有助于模型在训练过程中聚焦于特定类型的动作,还能够避免因不同动作的预测难度差异而导致的模型性能下降。在推理阶段,模型利用这些权重对各个分支的预测结果进行加权求和,从而生成最终的预测动作序列。
此外,研究团队还对模型的结构进行了优化,使其能够适应不同的几何变换。传统的动作预测模型在处理包含平移或旋转的动作序列时,往往需要额外的分支来应对不同的变换情况,这不仅增加了模型的复杂度,还可能导致计算资源的浪费。而MoB-GCN模型通过在分支权重分配模块和多分支预测模块中采用相同的时空特征提取方法,有效避免了这一问题。该方法能够在特征提取过程中保留动作序列的几何变换信息,使得模型在面对不同变换的动作序列时,依然能够保持较高的预测精度。
在实验设计方面,研究团队对多个数据集进行了系统的测试,以验证MoB-GCN模型的有效性。Human3.6M数据集包含了15种不同的动作,由7名受试者完成,涵盖了行走、进食、坐立、讨论、打电话和等待等多种日常行为。该数据集的原始动作序列包含32个骨骼节点,研究团队根据以往实验标准将其采样频率调整为每秒25帧,以确保数据的一致性和可比性。通过在该数据集上的测试,研究团队发现MoB-GCN模型在动作预测任务中表现优于其他方法,尤其是在处理具有不同几何变换的动作时,其性能提升更为显著。
在Carnegie Mellon University Motion Capture数据集的测试中,研究团队同样验证了MoB-GCN模型的优越性。该数据集包含了多种复杂的动作,如跑步、跳跃和抓取等,涵盖了多个不同的场景和动作类型。通过对比其他现有模型,研究团队发现MoB-GCN模型在预测这些动作时,不仅在整体精度上有所提升,而且在处理动作序列中的几何变换时也表现出更强的鲁棒性。特别是在MPJPE指标上,MoB-GCN模型实现了7%的性能提升,这表明其在预测动作的精确度方面具有显著优势。
Three-Dimensional Human Pose in the Wild数据集则用于测试模型在现实场景中的表现。该数据集包含了大量非结构化的动作序列,具有较高的挑战性。研究团队通过在该数据集上的测试,进一步验证了MoB-GCN模型在复杂环境下的适用性。实验结果表明,该模型不仅能够准确预测动作的未来姿态,还能够在面对不同的几何变换时保持较高的预测精度。这一能力使得MoB-GCN模型在实际应用中具有更大的灵活性和实用性。
除了实验验证,研究团队还对MoB-GCN模型的理论基础进行了深入探讨。他们指出,传统的动作预测模型往往在处理不同动作时面临困难,尤其是在动作序列之间存在显著差异的情况下。这种差异可能导致模型在训练过程中无法有效区分不同动作的特征,从而影响整体性能。而MoB-GCN模型通过引入多分支结构和竞争性损失函数,使得每个分支能够专注于特定类型的动作,从而提高模型的预测能力。
在模型的实现过程中,研究团队还考虑了计算效率的问题。由于多分支结构可能会增加模型的计算负担,他们设计了一种能够适应不同几何变换的时空特征提取方法,从而减少对额外分支的需求。这种方法不仅降低了模型的复杂度,还使得MoB-GCN模型能够在保持高性能的同时,实现更高效的计算。通过在不同数据集上的测试,研究团队发现该模型在计算资源的利用上表现良好,能够满足实际应用中对计算效率的需求。
此外,研究团队还探讨了MoB-GCN模型的局限性,并提出了未来的研究方向。他们指出,尽管该模型在处理不同几何变换的动作序列时表现优异,但在计算复杂度方面仍存在一定的挑战。随着模型分支数量的增加,计算复杂度可能会呈现出几何增长的趋势,这可能会影响模型的实际应用。因此,未来的研究需要进一步优化模型结构,以降低计算复杂度,同时保持其预测性能。
在作者贡献方面,研究团队明确划分了每位作者在项目中的角色。Xianshan Li主要负责模型的概念设计、方法论的提出以及资金的获取;Ang Gao则参与了模型的实现、实验设计以及数据的整理与分析;Xingxing Ning负责模型的可视化工作;Fengda Zhao则担任了项目指导,并负责资金的获取。这种分工使得研究团队能够高效地完成模型的设计、实现和验证工作,同时也确保了研究成果的全面性和可靠性。
研究团队还声明了其在项目中可能存在的利益冲突。Fengda Zhao作为项目的主要资助者,获得了来自河北省科技计划(Grant No. 246Z1817G)、新疆维吾尔自治区自然科学基金(Grant No. 2022D01A59)以及新疆大学产业与教育融合重点研究基地的支持。这些资助为研究的顺利进行提供了重要保障,同时也提醒读者在评估研究成果时,需注意潜在的资助来源可能对研究方向或结果产生的影响。
最后,研究团队对本研究的资助表示了感谢。他们特别感谢河北省科技计划、新疆维吾尔自治区自然科学基金、新疆大学产业与教育融合重点研究基地以及新疆科技学院研究基金重点人才发展计划的支持。这些资助不仅为研究提供了必要的资源,还推动了模型在实际应用中的发展。研究团队希望未来能够将MoB-GCN模型应用于更广泛的领域,如虚拟现实、自动驾驶和人机交互等,以进一步验证其在现实场景中的价值和潜力。
综上所述,MoB-GCN模型通过引入多分支结构和竞争性损失函数,有效解决了人类动作预测中因动作序列相互影响而导致的预测性能下降问题。同时,该模型还采用了一种适应于欧几里得几何变换的时空特征提取方法,使得其在处理不同几何变换的动作序列时,能够保持较高的预测精度。通过在多个数据集上的实验验证,研究团队展示了该模型在实际应用中的优越性,并为其未来的优化和推广提供了理论基础和实践依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号