VideoGNN:通过动态图模型进行视频表示学习

《ACM Transactions on Multimedia Computing, Communications, and Applications》:VideoGNN: Video Representation Learning via Dynamic Graph Modelling

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  视频图神经网络动态建模方法研究。提出VideoGNN模型,通过离散时间动态图表示视频,采用低复杂高效图生成模块构建动态图,设计双视图图神经网络融合时空信息,结合序列模型捕获长期时序特征,生成帧级嵌入。实验验证其在视频任务中的有效性。

  

摘要

图结构为视觉任务提供了灵活的框架,卷积神经网络(CNN)和变换器(Transformers)可以被视为图结构的两种特定实现方式。在CNN中,输入图像被处理为只有相邻像素相互连接的图;而在变换器中,图像被视为完全连接的图。为了充分发挥图结构在视频表示学习中的作用,有效的图生成和训练方法至关重要。为此,我们提出了VideoGNN,它将视频表示为离散时间动态图,并能够高效地学习这种动态图的结构。考虑到视频中包含大量帧,我们设计了一个高效图生成模块,该模块具有低复杂度和高质量的特点,从而便于将视频转换为动态图。此外,我们还引入了一个双视图图神经网络(dual-view graph neural network),用于从生成的动态图中捕获空间和时间信息。随后,我们应用了一个序列模型来捕捉长期时间信息,并生成最终的帧嵌入。实验表明,VideoGNN在图质量评估和视频下游任务方面能够取得优异的性能。相关代码可访问:https://github.com/Dodo-D-Caster/VideoGNN
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号