Vinci：一种基于以自我为中心的视觉-语言模型的实时智能助手，适用于便携式设备

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies》：Vinci: A Real-time Smart Assistant Based on Egocentric Vision-language Model for Portable Devices

【字体：大中小】 时间：2025年11月07日 来源：Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies

编辑推荐：

　　Vinci是一款面向便携设备的实时综合AI助手，核心为EgoVideo-VL模型，融合egocentric视觉与大语言模型，具备场景理解、时间定位、视频摘要等功能。通过内存模块处理长视频流，生成模块创建视觉示范，检索模块实现视角转换。系统硬件无关，支持手机等设备，实验验证其优异性能与实用效果。

摘要

我们提出了Vinci，这是一个视觉语言系统，旨在为便携式设备提供实时的、全面的AI辅助功能。Vinci的核心是EgoVideo-VL模型，该模型将以自我为中心的视觉基础模型与大型语言模型（LLM）相结合，实现了诸如场景理解、时间定位、视频总结和未来规划等高级功能。为了提升其实用性，Vinci配备了内存模块，可以实时处理长视频流并保留上下文信息；同时拥有生成模块，用于生成视觉动作演示；还有检索模块，能够连接以自我为中心的视角和第三人称视角，为用户提供相关的操作教程视频以帮助技能学习。与通常依赖专用硬件的现有系统不同，Vinci具有硬件无关性，可在包括智能手机和可穿戴相机在内的多种设备上部署。在实验中，我们首先展示了EgoVideo-VL在多个公开基准测试中的卓越性能，证明了其在视觉语言推理和上下文理解方面的能力。随后，我们进行了一系列用户研究，评估了Vinci在现实世界中的有效性，突出了其在不同场景下的适应性和可用性。我们希望Vinci能够为便携式、实时的以自我为中心的AI系统建立一个新框架，为用户提供具有实用价值的上下文信息和操作建议。Vinci的所有代码（包括前端、后端和模型）都公开托管在以下链接：https://github.com/OpenGVLab/vinci。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号