
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GLST-Net:融合全局与局部时空特征的双流网络在骨骼动作识别中的创新应用
【字体: 大 中 小 】 时间:2025年06月25日 来源:Journal of Visual Communication and Image Representation 2.6
编辑推荐:
【编辑推荐】针对传统图卷积网络(GCN)难以建模骨骼动作长程关联的问题,北京联合大学团队提出GLST-Net,通过全局-局部双流特征提取(GLDE)、多尺度时序差分建模(MTDM)和时序特征提取(TFE)模块,在NTU-RGB+D和UAV-Human数据集实现SOTA性能,为智能监控、人机交互等领域提供新解决方案。
在计算机视觉领域,骨骼动作识别正成为人机交互、智能监控等应用的核心技术。尽管深度传感器如Kinect的普及使骨骼数据获取更加便捷,但如何精准建模关节间复杂的时空关系仍是重大挑战。传统方法如ST-GCN(时空图卷积网络)依赖固定拓扑结构,难以适应"阅读"等动作中非连接关节的主导作用;而改进模型2s-AGCN又受限于通道耦合的单一拓扑。这些缺陷导致现有方法在NTU-RGB+D等复杂数据集上性能瓶颈明显。
北京联合大学的研究团队在《Journal of Visual Communication and Image Representation》发表的研究中,提出了革命性的GLST-Net模型。该模型通过三大创新模块:GLDE模块采用通道解耦拓扑捕捉关节微细关联,MTDM模块通过多尺度差分强化时序动态建模,TFE模块则优化时间维度特征提取。在跨视角和跨主体的实验设置下,模型准确率分别达到89.7%和92.3%,较基线方法提升显著。
关键技术方法包括:基于NTU-RGB+D(含56,880样本)和UAV-Human数据集验证;构建全局-局部双流网络处理空间特征;设计多尺度时序差分算子捕捉帧间动态;采用时空注意力机制优化特征融合。
【Global and Local Dual-Stream Feature Extraction (GLDE)】
通过解耦通道拓扑结构,同时建模关节间局部物理连接(如手-肘)和全局语义关联(如双手协同)。实验显示该模块使"打字"等精细动作识别准确率提升6.2%。
【Multi-Scale Temporal Difference Modeling (MTDM)】
创新性地在1/2/4帧间隔计算关节坐标差分,捕获不同速度的动作特征。在"跌倒"等突发动作检测中,F1-score提高至0.91。
【Temporal Feature Extraction (TFE)】
采用门控时序卷积筛选关键帧,使长序列动作(如"走路接转身")的时序建模效率提升34%。
结论部分指出,GLST-Net首次实现全局-局部特征的动态融合,其MTDM模块为时序建模提供新范式。在无人机监控场景(UAV-Human)的跨域测试中,模型展现出强大泛化能力。该研究不仅为骨骼动作识别设立新基准,其通道解耦思想对图神经网络设计具有普适指导意义。
值得注意的是,研究获得国家自然科学基金(62236006等)支持,团队在致谢部分特别强调了基金对硬件采购的关键支撑。未来工作将探索拓扑结构的自适应优化,以进一步提升模型在复杂群体动作中的表现。
生物通微信公众号
知名企业招聘