基于扩散的感知神经视频压缩技术:利用时间扩散信息进行重用
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
视频压缩领域引入基于扩散模型的视频压缩框架DiffVC,通过时间上下文和潜在表示引导模型生成高质量视频。创新性地设计时空信息重用策略(TDIR)加速推理,量化参数提示机制(QPP)优化不同比特率下的压缩效果,实验验证其感知和视觉质量优异。
摘要
近年来,基础扩散模型在图像压缩任务中引起了广泛关注,而其在视频压缩中的应用仍大多未被探索。在本文中,我们介绍了DiffVC,这是一种基于扩散的感知神经视频压缩框架,它有效地将基础扩散模型与视频条件编码范式相结合。该框架利用先前解码帧的时间上下文以及当前帧的重建潜在表示来指导扩散模型生成高质量的结果。为了加速扩散模型的迭代推理过程,我们提出了时间扩散信息重用(TDIR)策略,该策略通过重用之前帧的扩散信息显著提高了推理效率,同时几乎不损失性能。此外,为了解决不同比特率下失真差异带来的挑战,我们提出了基于量化参数的提示(QPP)机制,该机制利用量化参数作为输入到基础扩散模型中的提示,从而明确调节中间特征,从而实现一个稳健的可变比特率扩散神经压缩框架。实验结果表明,我们提出的解决方案在感知指标和视觉质量方面都表现出色。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号