Video-Bench:视频大语言模型评估新基准与工具包——迈向通用视频智能的关键一步
《IEEE Transactions on Computational Social Systems》:Video-Bench: A comprehensive benchmark and toolkit for evaluating video-based large language models
【字体:
大
中
小
】
时间:2025年12月09日
来源:IEEE Transactions on Computational Social Systems 4.9
编辑推荐:
本研究针对当前视频大语言模型(Video-LLMs)缺乏全面评估体系的问题,开发了Video-Bench基准与工具包。该研究通过10个任务系统评估模型的视频专属理解、先验知识问答及决策能力,发现现有模型在时空感知、领域知识和复杂决策方面仍存在明显不足。研究为Video-LLMs的发展提供了重要评估工具和方向指引。
随着人工智能技术的飞速发展,大语言模型(LLMs)在自然语言处理领域取得了突破性进展,而多模态大语言模型(Multimodal LLMs)的研究则将人工智能的感知能力扩展到了视觉领域。视频作为包含丰富时空信息的载体,其理解与分析对实现通用人工智能(AGI)具有重要意义。近年来,视频大语言模型(Video-LLMs)逐渐成为研究热点,这些模型能够处理视频输入并生成文本响应,展现出在视频理解方面的潜力。然而,当前视频智能系统的发展面临着一个关键瓶颈:缺乏系统、全面的评估基准来准确衡量模型的真实能力。
现有评估体系存在明显局限性。MMBench和LVLM-eHub等基准主要关注图像理解,忽视了视频特有的时序信息处理需求;SEED-Bench虽然包含部分视频任务,但仅限于基础的时间理解能力评估;RBench则侧重于多学科复杂推理,未专门针对视频理解设计评估方案。这种评估体系的缺失严重制约了Video-LLMs的健康发展,使得研究人员难以准确评估模型在真实世界视频理解任务中的表现。
为解决这一关键问题,北京大学等单位的研究团队在《Computational Visual Media》上发表了题为"Video-Bench: A comprehensive benchmark and toolkit for evaluating video-based large language models"的研究论文。该研究提出了一个全新的综合性评估体系Video-Bench,包含基准数据集和自动化评估工具包,系统评估Video-LLMs在三个层次的能力:视频专属理解、先验知识问答以及理解与决策能力。
研究团队在技术方法上采用了多层次的评估框架设计。Video-Bench包含10个精心设计的任务,覆盖从基础视频理解到复杂决策的全方位能力评估。基准构建过程中,研究团队重新组织并扩展了多个经典数据集的问题-答案对,包括MSVD-QA、MSRVTT-QA、YouCook2等,确保评估的全面性和挑战性。为应对大语言模型输出格式不固定的挑战,研究团队开发了自动评估工具包,提供三种评估指标:基于概率的token选择、T5-based文本相似度计算以及GPT-3.5-based语义理解评估,有效解决了模型输出量化评估的难题。
研究团队对9个代表性Video-LLMs进行了系统评估,包括VideoChat、Video-ChatGPT、Otter、Valley、PandaGPT、mPLUG-Owl、Video-LLaMA、Chat-UniVi以及新近发布的Qwen2.5-VL。评估过程严格控制变量,统一使用7B参数的LLM后端,以消除模型规模差异带来的影响。
在视频专属理解层面,研究发现了三个重要现象。首先,大多数模型在传统基础问答任务上表现良好,特别是那些经过大规模视频指令数据训练的模型,如Video-ChatGPT和Otter,以及使用ImageBind预训练视频编码器的PandaGPT,这表明扩展视频数据规模对提升基础理解能力确实有效。其次,现有Video-LLMs普遍缺乏时间感知能力,无法有效总结YouCook2中的操作顺序,也难以准确回应UCF-Crime中与时间戳相关的问题。第三,这些方法在人群计数任务上表现较差,暴露出其在精确定位物体和执行时间关联方面的能力不足。
在先验知识问答任务中,研究揭示了现有模型的明显局限性。由于训练数据有限,现有方法缺乏视觉先验知识,难以建立视频内容与领域知识之间的有效连接。例如,在NBA-QA任务中,即使LLM后端存储了球员和技术动作信息,模型也无法根据视频内容正确回答问题。拥有最多指令调优数据的Otter在此任务中表现最佳,表明MIMIC-IT数据集确实包含一定的先验知识。此外,模型在MV-QA上的较差表现说明其音频理解能力有限,只有部分Video-LLMs配备了音频模块。
在理解与决策任务中,Video-ChatGPT凭借其强大的视频指令调优能力表现最佳,Valley则凭借大量指令调优视频获得的强大多模态理解能力位居第二。最新模型Qwen2.5-VL在三大任务上均取得显著改进,表明其大规模预训练和SFT数据引入了更丰富的知识,同时强化学习人类反馈(RLHF)技术提供了更强的决策能力。然而,该模型在MOT任务上的较差表现凸显了复杂人群计数和相关数值推理能力仍有待发展。
研究还深入分析了模型规模和评估指标的影响。实验表明,在相同架构和训练数据条件下,更大参数的模型通常能获得更好的性能,这归因于底层LLM的参数规模及其增强的表征和推理能力。在评估指标比较中,基于概率的指标结果普遍偏低,因为Video-LLMs的输出无法有效给出明确选择,基于概率的映射可能无法真实反映正确性。因此,研究推荐采用GPT作为评估指标,特别是对于LLM参数较少、输出不稳定的Video-LLMs。
通过多维度分析,研究团队发现现有Video-LLMs在三个层次的能力上都缺乏针对性关注,经验性提出的模块尚未带来显著改进。数据分析表明,预训练数据规模并不起决定性作用,而指令调优数据量的影响则十分明显:使用视频数据训练的模型整体表现优于使用图像数据训练的模型,证实原生视频数据有助于增强Video-LLMs的视频理解能力;模型性能与视频指令调优数据量呈正相关,在大规模视频指令调优数据集上训练的Video-ChatGPT和Otter明显优于其他模型。
研究结论明确指出,现有Video-LLMs距离真正智能的视频理解系统还有很大差距。基于实验结果,研究提出了三个重要改进方向:首先,需要开发具有时间感知能力的视觉编码器,能够识别关键帧、建模事件时间顺序、感知物体运动并在时间上定位特定事件;其次,需要进行领域特定的先验知识预训练,将领域特定和多学科知识融入预训练过程,增强模型在专业领域的解释能力;第三,需要突破长视频理解的技术瓶颈,结合高效的时间压缩策略和分层记忆机制,实现细粒度的"大海捞针"式检索能力。
Video-Bench研究的重要意义在于为视频大语言模型的发展建立了首个全面评估基准,系统性地定义了视频智能的三个能力层次,并提供了可靠的自动化评估工具。该研究不仅揭示了当前模型的局限性,更重要的是为未来研究指明了方向,对推动通用视频智能的发展具有里程碑意义。随着视频数据的爆炸式增长和视频理解需求的日益迫切,Video-Bench将为评估和引导Video-LLMs技术进步发挥关键作用,最终推动人工智能在视频理解领域向人类水平智能迈进。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号