用于基于骨架的动作识别的解耦自适应多维动态图卷积网络
《Neurocomputing》:Disentangled adaptive multi-dimensional dynamic graph convolutional network for skeleton-based action recognition
【字体:
大
中
小
】
时间:2025年10月02日
来源:Neurocomputing 6.5
编辑推荐:
针对骨架动作识别中图卷积网络难以有效学习时空运动特征的问题,提出DAMD-GCN模型,包含自适应图卷积模块(d-AGCN)、多维度动态时空卷积模块(MD-TCN)和高效多尺度注意力模块(EMA)。通过动态调整图结构、多维度特征提取和跨时空信息聚合,显著提升复杂动作识别效果,在NTU RGB+D、NTU RGB+D 120和Kinetics-Skeleton数据集上达到最优性能。
在计算机视觉领域,人体动作识别是一个备受关注的研究课题。它不仅在人机交互、智能医疗、视频监控等多个实际应用中发挥着重要作用,而且随着深度学习技术的不断发展,其研究也逐渐深入。目前,基于骨架的动作识别方法因其在复杂环境下的鲁棒性而受到越来越多的关注。骨架数据相比传统的RGB视频或深度图像,具有更强的抗干扰能力,尤其在背景遮挡、摄像机视角变化以及光照条件不理想的情况下,骨架数据能够更稳定地表示人体动作信息。因此,越来越多的研究者开始探索如何利用骨架数据进行高效、准确的动作识别。
然而,现有的基于图卷积网络(Graph Convolutional Networks, GCNs)的方法在处理骨架数据时仍然存在一定的局限性。虽然图卷积网络能够捕捉人体关节之间的交互关系,但它们通常局限于描述关节之间的成对关系,难以有效表达更复杂的多关节间依赖。此外,传统方法在时间维度上的建模能力有限,主要依赖于固定的卷积核权重,这使得模型在提取动作轨迹特征时表现出一定的不足。同时,现有的模型往往只关注单一维度的特征增强,忽略了空间和时间维度之间的交互关系,从而影响了整体识别性能。
针对上述问题,本文提出了一种名为“解耦自适应多维动态图卷积网络”(Disentangled Adaptive Multi-Dimensional Dynamic Graph Convolutional Network, DAMD-GCN)的新模型。该模型由三个核心模块组成:解耦自适应图卷积网络模块(Disentangled Adaptive Graph Convolutional Network, d-AGCN)、多维动态时间卷积网络模块(Multi-Dimensional Dynamic Temporal Convolutional Network, MD-TCN)以及高效的多尺度注意力模块(Efficient Multi-Scale Attention, EMA)。这三个模块分别从空间、时间以及多维特征融合的角度出发,旨在提升基于骨架的动作识别性能。
首先,d-AGCN模块通过更新人体原始的解剖结构,并自适应地调整图结构的拓扑关系,来捕捉关节之间的交互关系以及关键动作细节。传统方法通常依赖于固定的图结构,这可能导致对某些特定动作的建模不够准确。而d-AGCN模块能够根据不同的动作样本动态调整图结构,从而更全面地表达人体动作的空间特征。此外,该模块还引入了一个无参数的注意力机制,用于反映关节之间的相关性,而不是仅仅依赖于预定义的解剖结构。这种方法不仅增强了模型对关键关节和动作细节的感知能力,还提高了其在不同动作类别中的泛化能力。
其次,MD-TCN模块专注于时间维度上的建模,通过多维表示来提取丰富的轨迹特征。传统的卷积神经网络在处理时间序列数据时,通常采用固定的卷积核权重,这使得模型在不同样本之间的适应能力受限。MD-TCN模块则通过动态调整卷积核的权重,使得模型能够更好地适应不同动作的轨迹变化。同时,该模块不仅考虑了时间维度上的信息,还融合了空间、输入通道和输出通道的多维特征,从而更全面地描述动作的动态过程。这种方法有助于模型在不同时间点上捕捉关键动作信息,并有效提取复杂的运动轨迹特征。
最后,EMA模块用于融合空间和时间维度上的信息,以增强关键时间点上重要关节的特征表示。EMA模块能够自适应地调整注意力权重,使得模型在不同时间帧上对关键关节的特征给予更高的关注。这种多尺度注意力机制不仅能够捕捉局部细节,还能识别全局模式,从而提升模型对复杂动作的识别能力。通过EMA模块,模型能够在不同时间点和不同关节之间建立更紧密的联系,进一步提高动作识别的准确性和鲁棒性。
为了验证DAMD-GCN模型的有效性,本文在三个广泛使用的大型数据集上进行了大量的实验:NTU RGB+D、NTU RGB+D 120和Kinetics-Skeleton。这些数据集涵盖了多种人体动作类别,且具有丰富的样本数量,能够全面评估模型的性能。实验结果表明,DAMD-GCN模型在这些数据集上均取得了优于现有方法的识别效果,尤其是在提取轨迹特征和空间信息方面表现出色。此外,通过消融实验,本文进一步验证了各个模块对模型性能的贡献,结果显示,每个模块的引入都显著提升了整体识别能力。
本文的主要贡献可以总结为以下几点:首先,提出了d-AGCN模块,该模块能够自适应地调整图结构,从而更有效地捕捉关节之间的交互关系和关键动作细节;其次,设计了MD-TCN模块,该模块通过多维表示和动态权重调整,提升了模型在时间维度上的建模能力;第三,引入了EMA模块,该模块能够融合空间和时间维度的信息,增强关键时间点上重要关节的特征表示;最后,通过将这三个模块整合在一起,构建了DAMD-GCN模型,并在多个数据集上验证了其优越的性能。
在实验部分,本文详细描述了所使用的三个数据集及其训练细节。NTU RGB+D数据集包含了多种人体动作的骨架数据,每个动作样本均配有RGB视频和深度图像,能够提供丰富的上下文信息。NTU RGB+D 120数据集则是NTU RGB+D的扩展版本,涵盖了更多的动作类别和更复杂的动作场景。Kinetics-Skeleton数据集则主要基于Kinetics-700数据集,提取了其中的骨架信息,用于训练和测试动作识别模型。通过在这些数据集上的实验,本文展示了DAMD-GCN模型在不同场景下的适应能力和识别效果。
此外,为了进一步验证各个模块的重要性,本文还进行了消融实验。消融实验的结果表明,d-AGCN模块、MD-TCN模块和EMA模块的引入对模型性能均有显著提升。其中,d-AGCN模块在捕捉关节之间的交互关系和关键动作细节方面发挥了重要作用;MD-TCN模块在时间维度上的建模能力得到了明显增强;而EMA模块则在空间和时间维度的信息融合方面表现出色。这些实验结果不仅验证了DAMD-GCN模型的有效性,还为后续研究提供了有价值的参考。
在结论部分,本文总结了DAMD-GCN模型的优势和潜力。该模型通过引入自适应图结构、多维动态时间卷积和多尺度注意力机制,有效解决了传统方法在动作识别中的不足。其在多个数据集上的实验结果表明,该模型在识别准确性和鲁棒性方面均优于现有方法。未来,本文的研究成果有望应用于更广泛的场景,如智能监控、虚拟现实、康复训练等,为基于骨架的动作识别技术提供新的思路和方法。
总之,本文提出了一种全新的基于骨架的动作识别模型——DAMD-GCN。该模型通过解耦自适应图卷积、多维动态时间卷积以及多尺度注意力机制,实现了对空间和时间维度信息的全面捕捉和融合。实验结果表明,该模型在多个数据集上均取得了优异的性能,展示了其在动作识别领域的应用潜力。未来的研究可以进一步探索如何优化模型结构,提升其在实际应用中的表现,并拓展其在其他相关任务中的适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号