基于扩散的感知神经视频压缩技术：利用时间扩散信息进行重用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　视频压缩领域引入基于扩散模型的视频压缩框架DiffVC，通过时间上下文和潜在表示引导模型生成高质量视频。创新性地设计时空信息重用策略(TDIR)加速推理，量化参数提示机制(QPP)优化不同比特率下的压缩效果，实验验证其感知和视觉质量优异。

摘要

近年来，基础扩散模型在图像压缩任务中引起了广泛关注，而其在视频压缩中的应用仍大多未被探索。在本文中，我们介绍了DiffVC，这是一种基于扩散的感知神经视频压缩框架，它有效地将基础扩散模型与视频条件编码范式相结合。该框架利用先前解码帧的时间上下文以及当前帧的重建潜在表示来指导扩散模型生成高质量的结果。为了加速扩散模型的迭代推理过程，我们提出了时间扩散信息重用（TDIR）策略，该策略通过重用之前帧的扩散信息显著提高了推理效率，同时几乎不损失性能。此外，为了解决不同比特率下失真差异带来的挑战，我们提出了基于量化参数的提示（QPP）机制，该机制利用量化参数作为输入到基础扩散模型中的提示，从而明确调节中间特征，从而实现一个稳健的可变比特率扩散神经压缩框架。实验结果表明，我们提出的解决方案在感知指标和视觉质量方面都表现出色。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号