基于隐式表示的体积视频流传输技术,以实现逼真的全场景体验

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Implicit Representation-based Volumetric Video Streaming for Photorealistic Full-scene Experience

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  提出基于隐式神经辐射场(NeRF)的全场景体积视频流媒体系统,通过分层表示与轻量级背景移除优化数据传输效率,结合模拟退火算法与感知学习指标提升用户体验,实验表明其相比现有方法在感知质量、缓冲时间和用户满意度上分别提升24%、减少83%和增强54%。

  

摘要

物联网与深度相机、激光雷达扫描仪和眼动追踪红外传感器等传感器的广泛集成,使得头戴设备中的数字体验进入了一个新时代。全场景体积视频(Full-Scene Volumetric Video, VV)作为这一集成中的关键创新,通过捕捉3D世界的丰富细节提供了深度沉浸式的体验。然而,其庞大的数据量带来了显著的流媒体传输挑战。尽管已经提出了基于3D瓦片的视口方法,但由于视频缓冲区容量有限、瓦片分割开销高以及缺乏对全场景的考虑,这些方法在处理全场景VV时仍存在困难。受隐式神经辐射场(NeRF)技术发展的启发,我们提出了V2NeRF,这是一种具有分层表示机制的全场景VV流媒体系统。该系统将NeRF技术与显式点云相结合,用于表示静态背景和动态前景,从而避免了大量数据传输,并实现了逼真的内容呈现。为了解决V2NeRF系统中的计算密集型和多尺度适应调度问题,我们提出了一种轻量级的不可见背景去除方法以及两阶段解耦架构。此外,我们还开发了一种高效的基于缓冲区的模拟退火算法,并利用了感知学习得到的度量标准来提升用户体验。我们还讨论了实际开发和部署中的相关问题。广泛的原型评估表明,V2NeRF在各种网络、观看动作和场景下具有出色的流媒体传输和观看性能。例如,与现有技术相比,它的感知质量提高了24%,重新缓冲时间减少了83%,用户体验平均提升了54%。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号