VideoGNN：通过动态图模型进行视频表示学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：VideoGNN: Video Representation Learning via Dynamic Graph Modelling

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　视频图神经网络动态建模方法研究。提出VideoGNN模型，通过离散时间动态图表示视频，采用低复杂高效图生成模块构建动态图，设计双视图图神经网络融合时空信息，结合序列模型捕获长期时序特征，生成帧级嵌入。实验验证其在视频任务中的有效性。

摘要

图结构为视觉任务提供了灵活的框架，卷积神经网络（CNN）和变换器（Transformers）可以被视为图结构的两种特定实现方式。在CNN中，输入图像被处理为只有相邻像素相互连接的图；而在变换器中，图像被视为完全连接的图。为了充分发挥图结构在视频表示学习中的作用，有效的图生成和训练方法至关重要。为此，我们提出了VideoGNN，它将视频表示为离散时间动态图，并能够高效地学习这种动态图的结构。考虑到视频中包含大量帧，我们设计了一个高效图生成模块，该模块具有低复杂度和高质量的特点，从而便于将视频转换为动态图。此外，我们还引入了一个双视图图神经网络（dual-view graph neural network），用于从生成的动态图中捕获空间和时间信息。随后，我们应用了一个序列模型来捕捉长期时间信息，并生成最终的帧嵌入。实验表明，VideoGNN在图质量评估和视频下游任务方面能够取得优异的性能。相关代码可访问：https://github.com/Dodo-D-Caster/VideoGNN。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号