视觉-语言模型学习超级图像,以实现高效的部分相关视频检索

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval

【字体: 时间:2025年11月07日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  本文提出了一种高效的视频部分相关检索方法,通过将长视频帧重构为N×N网格的超图像,将视觉编码次数降低至1/N2,有效平衡了检索性能与计算成本。创新点包括零样本超图像检索框架QASIR及其微调与混合优化策略,揭示了网格尺寸、图像分辨率与VLM规模的关键权衡参数。

  

摘要

在本文中,我们提出了一种高效且性能优异的部分相关视频检索方法。该方法旨在检索包含至少一个与输入文本查询相关片段的长视频。挑战在于使用视觉模型对高密度视频帧进行编码。这要求模型能够处理大量的帧,从而导致长视频的计算成本显著增加。为了降低计算成本,以往的研究采用了轻量级的视觉模型,但由于其能力有限,检索效果并不理想。然而,直接用高性能的大规模视觉与语言模型(VLM)替换这些模型又存在效率低下的问题。为了解决这一困境,我们没有采用高密度视频帧,而是关注“超级图像”,这些图像是通过将视频帧重新排列到\(N\times N\)网格布局中创建的。这种方法将视觉编码的数量减少了\(\frac{1}{N^{2}}\),从而缓解了大型VLM的低效率问题。基于这一思路,我们做出了两项贡献:首先,我们探讨了VLM是否能够在零样本环境下泛化到超级图像。为此,我们提出了一种称为“查询注意力超级图像检索”(Query-Attentive Super Image Retrieval,QASIR)的方法,该方法能够关注与输入查询相关的部分片段。零样本QASIR带来了两个发现:(1)它使VLM能够泛化到超级图像;(2)网格大小\(N\)、图像分辨率以及VLM的大小是性能与计算成本之间的关键权衡参数。其次,我们引入了微调技术和混合QASIR,结合了高效和低效模型来平衡性能与计算成本。这一方法揭示了两个结果:(1)微调后的QASIR能够有效提升VLM对超级图像的学习能力;(2)混合QASIR在降低计算成本的同时,最小化了大型VLM的性能下降。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号