VideoGNN:通过动态图模型进行视频表示学习
《ACM Transactions on Multimedia Computing, Communications, and Applications》:VideoGNN: Video Representation Learning via Dynamic Graph Modelling
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
视频图神经网络动态建模方法研究。提出VideoGNN模型,通过离散时间动态图表示视频,采用低复杂高效图生成模块构建动态图,设计双视图图神经网络融合时空信息,结合序列模型捕获长期时序特征,生成帧级嵌入。实验验证其在视频任务中的有效性。
摘要
图结构为视觉任务提供了灵活的框架,卷积神经网络(CNN)和变换器(Transformers)可以被视为图结构的两种特定实现方式。在CNN中,输入图像被处理为只有相邻像素相互连接的图;而在变换器中,图像被视为完全连接的图。为了充分发挥图结构在视频表示学习中的作用,有效的图生成和训练方法至关重要。为此,我们提出了VideoGNN,它将视频表示为离散时间动态图,并能够高效地学习这种动态图的结构。考虑到视频中包含大量帧,我们设计了一个高效图生成模块,该模块具有低复杂度和高质量的特点,从而便于将视频转换为动态图。此外,我们还引入了一个双视图图神经网络(dual-view graph neural network),用于从生成的动态图中捕获空间和时间信息。随后,我们应用了一个序列模型来捕捉长期时间信息,并生成最终的帧嵌入。实验表明,VideoGNN在图质量评估和视频下游任务方面能够取得优异的性能。相关代码可访问:
https://github.com/Dodo-D-Caster/VideoGNN。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号