Vinci:一种基于以自我为中心的视觉-语言模型的实时智能助手,适用于便携式设备

《Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies》:Vinci: A Real-time Smart Assistant Based on Egocentric Vision-language Model for Portable Devices

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies

编辑推荐:

  Vinci是一款面向便携设备的实时综合AI助手,核心为EgoVideo-VL模型,融合egocentric视觉与大语言模型,具备场景理解、时间定位、视频摘要等功能。通过内存模块处理长视频流,生成模块创建视觉示范,检索模块实现视角转换。系统硬件无关,支持手机等设备,实验验证其优异性能与实用效果。

  

摘要

我们提出了Vinci,这是一个视觉语言系统,旨在为便携式设备提供实时的、全面的AI辅助功能。Vinci的核心是EgoVideo-VL模型,该模型将以自我为中心的视觉基础模型与大型语言模型(LLM)相结合,实现了诸如场景理解、时间定位、视频总结和未来规划等高级功能。为了提升其实用性,Vinci配备了内存模块,可以实时处理长视频流并保留上下文信息;同时拥有生成模块,用于生成视觉动作演示;还有检索模块,能够连接以自我为中心的视角和第三人称视角,为用户提供相关的操作教程视频以帮助技能学习。与通常依赖专用硬件的现有系统不同,Vinci具有硬件无关性,可在包括智能手机和可穿戴相机在内的多种设备上部署。在实验中,我们首先展示了EgoVideo-VL在多个公开基准测试中的卓越性能,证明了其在视觉语言推理和上下文理解方面的能力。随后,我们进行了一系列用户研究,评估了Vinci在现实世界中的有效性,突出了其在不同场景下的适应性和可用性。我们希望Vinci能够为便携式、实时的以自我为中心的AI系统建立一个新框架,为用户提供具有实用价值的上下文信息和操作建议。Vinci的所有代码(包括前端、后端和模型)都公开托管在以下链接:https://github.com/OpenGVLab/vinci。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号