Vinci:一种基于以自我为中心的视觉-语言模型的实时智能助手,适用于便携式设备
《Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies》:Vinci: A Real-time Smart Assistant Based on Egocentric Vision-language Model for Portable Devices
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies
编辑推荐:
Vinci是一款面向便携设备的实时综合AI助手,核心为EgoVideo-VL模型,融合egocentric视觉与大语言模型,具备场景理解、时间定位、视频摘要等功能。通过内存模块处理长视频流,生成模块创建视觉示范,检索模块实现视角转换。系统硬件无关,支持手机等设备,实验验证其优异性能与实用效果。
摘要
我们提出了Vinci,这是一个视觉语言系统,旨在为便携式设备提供实时的、全面的AI辅助功能。Vinci的核心是EgoVideo-VL模型,该模型将以自我为中心的视觉基础模型与大型语言模型(LLM)相结合,实现了诸如场景理解、时间定位、视频总结和未来规划等高级功能。为了提升其实用性,Vinci配备了内存模块,可以实时处理长视频流并保留上下文信息;同时拥有生成模块,用于生成视觉动作演示;还有检索模块,能够连接以自我为中心的视角和第三人称视角,为用户提供相关的操作教程视频以帮助技能学习。与通常依赖专用硬件的现有系统不同,Vinci具有硬件无关性,可在包括智能手机和可穿戴相机在内的多种设备上部署。在实验中,我们首先展示了EgoVideo-VL在多个公开基准测试中的卓越性能,证明了其在视觉语言推理和上下文理解方面的能力。随后,我们进行了一系列用户研究,评估了Vinci在现实世界中的有效性,突出了其在不同场景下的适应性和可用性。我们希望Vinci能够为便携式、实时的以自我为中心的AI系统建立一个新框架,为用户提供具有实用价值的上下文信息和操作建议。Vinci的所有代码(包括前端、后端和模型)都公开托管在以下链接:https://github.com/OpenGVLab/vinci。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号