基于自适应扰动和梯度量化的视觉语义知识发现模型ViSK在多模态意图识别中的应用

《IEEE Access》:Visual Semantic Knowledge Discovery for Multimodal Intent Recognition

【字体: 时间:2025年12月11日 来源:IEEE Access 3.6

编辑推荐:

  本文推荐一种新颖的视觉语义知识发现模型ViSK,用于解决多模态意图识别中视频模态语义挖掘不足的问题。该研究通过Video Swin Transformer提取时空块特征,采用自适应扰动模块生成实例感知噪声,结合基于Lipschitz条件的梯度量化机制评估语义块贡献度。实验表明,ViSK在MIntRec和IEMOCAP-DA数据集上显著优于现有方法,首次实现了无需额外标注的细粒度视觉语义提取,为多模态意图理解提供了可解释性新范式。

  
在人工智能与人机交互蓬勃发展的今天,准确理解人类意图成为提升智能系统交互能力的关键。尽管现有技术已能较好处理文本模态的意图分析,但现实场景中丰富的非语言线索——如视频中的表情变化、手势动作等——往往承载着更深层的意图信息。当前多模态意图识别方法大多以文本为主导,视频模态仅作为辅助,其蕴含的细粒度语义价值未被充分挖掘。传统视频分类模型如3D CNN或Transformer虽能提取时空特征,但难以建立局部视觉单元与高层意图的显式关联,存在语义鸿沟问题。这一瓶颈严重限制了视频模态在多模态融合中的贡献度,尤其在对精细意图(如抱怨、炫耀等)的识别中表现明显。
为突破这一局限,香港浸会大学的研究团队在《IEEE Access》发表了一项创新研究,提出名为ViSK的视觉语义知识发现模型。该研究首次将自适应扰动机制与梯度量化技术相结合,实现了无需人工标注的视觉语义自动发现,在多模态意图识别任务中取得了突破性进展。
研究团队采用三项核心技术构建ViSK模型:首先利用Video Swin Transformer将视频帧序列转换为时空块特征,将其作为视觉语义的基本单元;随后设计包含堆叠3D卷积层的自适应扰动模块,通过特征驱动生成实例特定的高斯噪声参数σ,并通过缩放函数控制扰动强度;最后基于深度神经网络的Lipschitz约束条件,通过多次扰动估计每个时空块对意图分类logits的梯度敏感度,以此作为语义重要性量化指标。该梯度量化过程完全在训练过程中自主完成,无需依赖任何先验标注信息。
模型架构设计与性能验证
研究通过系统实验验证了ViSK框架的有效性。在视频单独模态的意图识别任务中,ViSK在MIntRec数据集上准确率达到17.12%,较最佳基线提升1.30%;在IEMOCAP-DA数据集上准确率提升0.44%。特别在精确度指标上表现突出,在MIntRec数据集上较基线提升3.09%,证明其能有效减少误判。消融实验显示,自适应扰动模块相比固定扰动使准确率提升0.26-0.49%,特征缩放机制避免噪声过大干扰,梯度量化模块则是性能提升的核心贡献者。
多模态融合增强效果
将ViSK发现的视觉语义特征融入多模态框架后,在MIntRec数据集上达到72.72%的准确率,较最强基线提升0.27%。值得注意的是,传统多模态方法如MAG-BERT在某些指标上甚至低于纯文本基线,而ViSK增强的框架在所有指标上均超越文本基线,证明其发现的视觉语义能实质提升多模态理解能力。
可解释性分析
可视化结果生动展示了ViSK的语义发现能力。如图3所示,模型能准确追踪说话者面部区域(图3a,3b)和手势变化(图3c,3d),即使存在多人场景或镜头切换也能保持稳定关注。在表达情感类意图(如抱怨、批评)时重点关注面部表情变化,在涉及指示类意图时则聚焦手势轨迹,这种自适应语义聚焦能力与人类直觉高度一致。
技术创新与理论贡献
ViSK的创新性体现在三个方面:理论层面,将Lipschitz约束条件转化为可操作的梯度量化指标,为DNN可解释性研究提供新思路;方法层面,首次实现完全无监督的视觉语义发现,突破了对标注数据的依赖;应用层面,发现的语义特征能直接增强现有多模态模型,且具备跨骨干网络的泛化能力(在S3D、MViT等模型上均带来2-4%提升)。
研究结论表明,ViSK模型通过自适应扰动和梯度量化机制,有效解决了多模态意图识别中的视觉语义挖掘难题。其发现的视觉知识不仅显著提升视频单独模态的识别性能,更能与文本、音频模态深度融合,在复杂意图理解任务中实现协同增强。这项工作为多模态可解释性研究开辟了新方向,其可视化结果为进一步探索意图-视觉关联机制提供了重要基础。未来可延伸至人机交互、智能监控等领域,对实现真正意义上的情境感知计算具有重要推动作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号