UniMultNet:一种基于多尺度特征融合和视频-文本约束引导的动作识别方法
《Computer Vision and Image Understanding》:UniMultNet: Action recognition method based on multi-scale feature fusion and video-text constraint guidance
【字体:
大
中
小
】
时间:2025年07月30日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
多尺度特征融合与视频-文本约束引导的联合行动识别模型UniMultNet通过Local-Global Feature Fusion Block(LGFB)和Cross-Modal Adaptive Constraint Fusion Module(ACCF)解决现有方法对局部-全局特征互补性利用不足及跨模态信息分布差异问题,在MOD-20、HMDB-51等数据集上分类准确率提升0.3%-1.04%。
摘要
现有的动作识别方法主要关注局部和全局特征的提取,但忽略了它们之间的互补性。此外,视觉特征和文本特征在空间分布上的差异经常导致主流融合方法中的信息丢失。为了解决这些问题,本文提出了一种基于多尺度特征融合和视频-文本约束引导的动作识别方法(UniMultNet),该方法旨在确保局部和全局特征的有效融合以及视觉和文本信息的紧密耦合。UniMultNet由两个主要组件组成:局部-全局特征融合模块(LGFB)和跨模态自适应约束融合模块(ACCF)。LGFB利用自注意力机制聚合多尺度信息并捕捉局部和全局特征之间的相关性,而ACCF采用约束学习策略来学习视觉-文本交互的全局表示,从而监督视觉特征的学习过程。在多个基准数据集(MOD-20、HMDB-51、UCF-101以及Something V1和V2)上的广泛实验表明,与最先进的方法相比,UniMultNet在准确率上取得了显著提升,提升幅度从0.3%到1.04%不等。
引言
深度学习在计算机视觉的各个领域取得了显著进展。智能监控、人机交互和娱乐产业都严重依赖于人工智能技术,其中动作识别是一项关键技术。
尽管现有方法已经取得了显著进展,但在处理复杂背景、遮挡和运动变化等挑战时仍存在某些不足。最初,传统的卷积神经网络(CNNs,如Carreira和Zisserman(2017年)、Kataoka等人(2020年)、Dastbaravardeh等人(2024年)在空间特征提取方面表现优异,但难以建模长时间依赖关系。与CNNs不同,Transformer模型(Dosovitskiy等人,2020年;Bertasius等人,2021年;Liu等人,2021年)包含了自注意力机制,这大大缓解了动作识别中的长时间建模问题。然而,由于其高计算复杂性,这种方法在计算机视觉中的实际应用受到限制。随后,现有方法(Huo等人,2024年;Vrskova等人,2023年;Li等人,2022b年)侧重于提取局部和全局特征,但未能充分利用它们的互补性,导致在多尺度场景下的识别性能有限。最后,在多模态融合方面,主流方法(Radford等人,2021年;Kalfaoglu等人,2020年;Wang和Koniusz,2021年)通过特征拼接、注意力机制、特征对齐或对比学习等策略实现了视觉和文本信息之间的交互。然而,视觉特征和文本特征在潜在空间中的显著分布差异导致融合策略无法充分利用模态间的互补性。特别是在数据稀缺的场景中(例如小规模数据集),模型容易过拟合,并且泛化能力有限。
为了解决这些挑战,本文提出了一种基于多尺度特征融合和视频-文本约束引导的动作识别方法。该方法引入了一种新的融合策略,包括两个关键组件:局部-全局特征融合模块(LGFB)和跨模态自适应约束融合模块(ACCF)。LGFB利用自注意力机制通过融合多尺度信息来捕捉局部和全局特征之间的相关性。ACCF采用约束令牌来学习全局视频-文本表示,从而监督视觉特征的学习过程。与传统基于拼接的方法不同,这种策略实现了多样特征的有效整合,并最大化了它们的互补性。本文的主要贡献如下:
- 受UniFormer模型的启发,本文提出了一种基于多尺度特征融合和视频文本约束引导的动作识别方法(UniMultNet)。该方法通过局部-全局特征融合模块聚合局部和全局特征,增强了特征表示的丰富性。同时,利用跨模态自适应约束融合模块融合视频和文本特征,进一步提高了视频特征的表现能力。
- 开发了一个局部-全局特征融合模块(LGFB)。该模块在自注意力机制中建模局部和全局特征之间的相关性,结合不同的池化操作和通道加权机制来缓解多尺度特征维度变化的影响。通过加权融合实现了多维特征的有效整合,解决了局部和全局特征融合不足的问题。
- 提出了一种跨模态自适应约束融合模块(ACCF)。该模块基于跨模态自注意力机制提取视频和文本之间的语义关联,并通过Transformer编码器层引入约束令牌来捕捉视频和文本之间的全局语义信息。这种设计避免了模型过度依赖原始数据的偏见,有效地指导了视频中信息的学习。
小节片段
CNN和Transformer的结合
CNN和Transformer是深度学习领域中两个关键且极具影响力的模型。虽然CNN在捕捉长距离依赖关系方面存在局限性,但Transformer通过其自注意力机制在建模这类关系方面表现出更强的能力。最近,研究人员探索了CNN和Transformer的各种结合方法。这种结合分为两个方面:架构设计和复杂性(Dai等人,2023年)。
方法
本文提出了一种基于多尺度特征融合和视频-文本约束引导的动作识别方法(UniMultNet),如图1所示。该方法整合了局部-全局特征融合模块(LGFB)和跨模态自适应约束融合模块(ACCF),旨在增强特征表示的完整性和多模态信息融合的能力。具体来说,LGFB结合了UniFormer的浅层和深层特征输出,有效地
数据集
MOD-20(Perera等人,2020年)包含2324个视频,涵盖20个动作类别。这些动作来自具有挑战性和复杂性的场景,涵盖了从地面到鸟瞰图的多种视角。HMDB-51(Kuehne等人,2011年)包含51个不同的动作类别,每个类别至少有100个视频片段,涵盖了各种日常和体育活动。
UCF-101(Soomro等人,2012年)是一个来自YouTube的真实动作视频动作识别数据集,提供了13,320个视频
结论
在多个公共数据集上的广泛实验表明,所提出的UniMultNet框架在视频动作识别任务中表现出优越的性能。与传统方法相比,局部-全局特征融合模块(LGFB)和跨模态自适应约束融合模块(ACCF)显著提高了分类准确率。该框架在处理复杂视频场景和多模态数据时表现出强大的鲁棒性和泛化能力。
CRediT作者贡献声明
田秋红:撰写——审稿与编辑、监督、概念化。曾飞:撰写——初稿、方法论。宁俊晓:可视化、验证。张丽钊:调查、数据管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作得到了国家自然科学基金
(51405448)的支持。田秋红还感谢启动资金对现代纺织和服装设备与数字技术整合的研究与应用——基于服务扩展的多智能协作控制刺绣设备的研究与开发(2022C01224)。这项工作将应用于学校科学创新项目:轻量化动态标志的研究
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号