PatchEX:通过基于补丁的并行外推实现的高质量实时时间超采样

《ACM Transactions on Graphics》:PatchEX: High-Quality Real-Time Temporal Supersampling through Patch-based Parallel Extrapolation

【字体: 时间:2025年11月10日 来源:ACM Transactions on Graphics

编辑推荐:

  针对高刷新率显示器中GPU帧率限制的问题,提出PatchEX方法,通过前景-背景分割、变形卷积和滤波剪枝优化神经网络,在保证质量的同时提升速度,PSNR提升61.32%和49.21%。

  高刷新率显示器近年来变得非常流行,这主要是由于在游戏、专业显示器以及医疗成像等特定应用中对卓越视觉质量的需求。然而,高刷新率显示器本身并不能保证卓越的视觉体验,GPU需要以匹配的速率渲染帧。否则,我们会观察到令人不安的视觉伪影,如屏幕撕裂和卡顿。实时帧生成是一种有效技术,通过从其他已渲染帧中预测新帧来提高帧率。在这一领域有两种方法:插值和外推。插值方法在图像质量上表现良好,但运行时间较长,因为它们还需要下一个已渲染帧。另一方面,外推方法速度更快,但质量较低。本文介绍了PatchesEX,一种新颖的帧外推方法,旨在以外推的速度提供插值的质量。它巧妙地将每帧分割为前景和背景区域,并使用一种新的神经网络来生成最终的外推帧。此外,还应用了一种基于小波变换(WT)的滤波器剪枝技术来压缩网络,显著减少了外推过程的运行时间。我们的结果表明,PatchesEX在最新外推方法ExtraNet和ExtraSS上分别实现了61.32%和49.21%的PSNR提升,同时运行速度分别提高了3倍和2.6倍。

在过去的几年中,对高刷新率显示器的需求显著增长。主要显示器品牌已经达到了360 Hz的刷新率。这种增长是由各种市场细分中对增强视觉质量的需求驱动的,如游戏、专业显示器(用于电子竞技等)以及医疗成像和科学可视化等特殊应用。仅2022年,全球游戏显示器市场价值就达到了约95.1亿美元,并预计到2030年将增长至约160.4亿美元,复合年增长率(CAGR)为6.76%(2023年至2030年)。这一趋势的原因在于,低刷新率显示器在高速运动中有时会表现出各种视觉伪影,如抖动(非连续运动感知)和运动模糊。高频显示器旨在通过消除这些伪影提供平滑无缝的体验。

必须认识到,仅依靠高刷新率显示器可能不足以保证平滑性能,除非GPU的帧渲染速率与刷新率相匹配。当渲染速率低于刷新率时,可能会出现屏幕撕裂和卡顿等视觉伪影。像G-Sync这样的技术通过启用可变刷新率来同步渲染速率,但可能会导致显示器最大刷新率的未充分利用。因此,GPU需要以匹配的速率渲染帧,这在实际应用中很少能实现。随着图形工程师在图形应用中引入越来越复杂的特效以增强真实感,渲染过程变得更为复杂和耗时(请参阅A.4)。多项研究表明渲染速率的变化及其对用户体验质量的影响。这需要探索在渲染后生成额外帧的策略,以使帧生成速率与显示器的刷新率相匹配。

帧生成的一个最有效方法是帧生成,它通过使用信息从下一个和先前渲染的帧来预测帧。核心概念在于,由于生成新帧耗时,我们可以使用先前渲染的帧或下一个帧(在时间序列中)来加速该过程,并在显示设备上交错这些帧。这会增加帧率并实现速率匹配。为了使帧生成有效,确保预测时间短于渲染时间并生成可接受质量的预测帧非常重要。特别是在实时系统如虚拟现实应用和游戏中,减少运行时间和确保良好的质量至关重要。

插值:高质量,高运行时间;外推:低质量,低运行时间。在帧生成领域,存在两种主要方法:插值和外推。如其名称所示,插值使用过去和未来的帧来预测一个帧,而外推使用仅过去的几个帧来创建一个新帧。图1展示了几个最近工作的性能,以质量和运行时间表示。可以看出,插值产生的质量优于现有的外推方法,但运行时间较长(几乎14毫秒),而外推则以较低的运行时间换取较差的质量。这是因为插值考虑了过去和未来的帧(详见第2.1节)。

因此,挑战是明确的:要在保持外推效率的同时,实现插值的视觉质量。需要注意的是,插值通过在刷新间隔内保留一个已经渲染的帧而引入固有的延迟。这种延迟很容易被人类视觉系统检测到。因此,我们提出了一种基于外推的方法,不会产生这种开销。考虑到历史上这类算法产生的输出质量较低,实时外推是一个较少探索的领域。据我们所知,只有三项主要工作专门针对这一问题:ExtraNet、ExtraSS和STSS。这些方法使用了扭曲算法,通过一个运动矢量(MV)来转换帧。扭曲算法常常导致某些区域出现无效像素和孔洞,以及在其他区域产生错误的阴影。各种方法如使用神经网络已被用于纠正这些问题。它们使用存储在G缓冲区中的信息——这些是渲染引擎中存储场景不同属性(如场景深度、粗糙度等)的数据结构。尽管如此,这些方法在具有多个角色和光源的复杂动态环境中并未产生令人满意的成果。即使基线外推方法速度较快,但一旦加入神经网络,它们的运行时间就会变得非常慢。

在本文中,我们介绍了PatchesEX,一种显著不同于以往帧外推方法的新方法。据我们所知,我们的工作是第一个明确将感知敏感性作为帧外推设计原理的。这是至关重要的考虑,因为前景区域通常表现出比背景区域显著更多的视差。这种视差差异导致了明显的遮挡和反遮挡效果,需要特别关注。与以往的工作通常在整个帧上进行统一处理不同,我们可能忽略了关键内容而关注于重要性较低的区域,我们的方法将帧分割为前景和背景区域,考虑了人类视觉系统的特性(称为前景-背景分割),并分别处理这些区域。

我们的外推管道首先使用当前的MV对帧进行扭曲,作为外推帧的初始预测。如前所述,扭曲后的帧可能在反遮挡区域有无效像素,在某些区域有错误的阴影。因此,我们提出了一种新的神经网络来修复这些问题。我们生成两个二进制掩码:一个用于识别需要修复的反遮挡区域,另一个用于前景-背景分离。然后,将这些掩码作为输入提供给专门用于修复无效像素和校正阴影的神经网络。我们的神经网络利用可变形卷积,使模型能够自适应地关注内容特定的变换。值得注意的是,以往的外推方法依赖多个G缓冲区来进行扭曲、标记无效像素并使用神经网络修复这些像素。然而,这些G缓冲区生成成本高昂,且通常不适用于游戏和VR引擎中的前向渲染。为了解决这一限制,我们的方法仅使用场景深度和MV,使其轻量且适用于前向和延迟渲染管道。此外,我们还引入了一种基于小波变换(WT)的滤波器剪枝策略,使神经网络在减少计算成本和运行时间的同时保持高性能。

目前,我们缺乏大规模公开可用的数据集或工作负载来表征图形应用中的实时渲染。为此,我们创建了一个数据集,通过从Epic Games下载模型和场景文件,并使用Unreal Engine(v5.1)进行渲染。我们的数据集包含多种动画序列,涵盖多样化的角色、背景场景、照明效果和摄像机运动。请注意,我们的贡献是通用的,不限于我们选择的评估框架。

总结一下,我们的主要贡献如下:
① 我们提出了一种轻量级的帧外推管道,不依赖昂贵且与渲染模式特定的G缓冲区。
② 我们提出了一种新颖的感知引导神经网络,利用可变形卷积对前景和背景区域进行不同处理。
③ 我们精心整理了一个包含广泛动画序列的全面数据集,涵盖多样化的角色、背景、照明设置和摄像机运动。
④ 为了减少计算成本和运行时间,我们提出了一种新颖且定制的滤波器剪枝技术,从神经网络中移除不重要的滤波器。这使网络更小更快,同时仍能产生高质量的结果。
⑤ PatchesEX在PSNR(峰值信噪比)方面分别比最近的外推方法ExtraNet和ExtraSS提升了61.32%和49.21%。
⑥ 提出的修复网络比最近竞争工作ExtraNet和ExtraSS分别快5倍和2倍。

本文的组织如下。第2节描述了各种帧生成技术的背景和相关工作。第3节表征了数据集并提供了我们提出方法的动机。第4节详细介绍了方法。第5节提供了实现细节。第6节展示了实验结果,最后在第7节进行结论和未来工作。

在过去的几年中,对高刷新率显示器的需求显著增长。刷新率已达到主要显示器品牌的360 Hz。这种激增是由各种市场细分中对增强视觉质量的需求驱动的,如游戏、专业显示器(用于电子竞技等领域)以及医疗成像和科学可视化等特殊应用。仅2022年,全球游戏显示器市场价值就达到了约95.1亿美元,并预计到2030年将增长至约160.4亿美元,复合年增长率(CAGR)为6.76%(2023年至2030年)。这一趋势的原因在于,低刷新率显示器在高速运动中有时会表现出各种视觉伪影,如抖动(非连续运动感知)和运动模糊。高频显示器因此旨在通过消除这些伪影提供平滑和无缝的体验。

GPU是瓶颈:必须承认,仅拥有高频率显示器可能并不总是能保证平滑性能,除非帧渲染速率与刷新率匹配。当渲染速率低于刷新率时,可能会出现屏幕撕裂和卡顿等视觉伪影。像G-Sync这样的技术通过启用可变刷新率来同步渲染速率,但可能会导致显示器最大刷新率的未充分利用。因此,GPU必须以匹配的速率渲染帧,这在实际应用中很少能实现。随着图形工程师在图形应用中引入越来越复杂的特效以增强真实感,渲染过程变得更为复杂和耗时。多项研究表明渲染速率的变化及其对用户体验质量的影响。这需要探索在渲染后生成额外帧的策略,使得帧生成速率等于显示器的刷新率。

帧生成填补了GPU遗漏的帧:提高帧率的最有效方法之一是帧生成,它涉及使用信息从下一个和先前渲染的帧来预测帧。如相关工作所示,帧生成可以提升帧率,实现速率匹配。由于渲染新帧是耗时的,我们可以通过预测新帧来加快该过程,同时在显示设备上交错这些帧。这会增加帧率并实现速率匹配。为了使帧生成有效,必须确保预测时间短于渲染时间,并且预测的帧具有可接受的质量。特别是在实时系统如虚拟现实应用和游戏中,减少运行时间和确保良好质量至关重要。

插值:高质,高运行时间;外推:低质,低运行时间。在帧生成领域,存在两种主要方法:插值和外推。如其名称所示,插值使用过去和未来的帧来预测一个帧,而外推则使用过去的几个帧来创建一个新帧。图1展示了几个最近工作的性能,以质量和运行时间表示。可以看出,插值产生的质量优于现有的外推方法,但运行时间较长(几乎14毫秒),而外推则以较低的运行时间换取较差的质量。这是因为插值考虑了过去和未来的帧(详见第2.1节)。

因此,挑战是明确的:要在保持外推效率的同时,实现插值的视觉质量。需要注意的是,插值通过在刷新间隔内保留一个已经渲染的帧而引入固有的延迟。这种延迟很容易被人类视觉系统检测到。因此,我们提出了一种基于外推的方法,不会产生这种开销。考虑到历史上这类算法产生的输出质量较低,实时外推是一个较少探索的领域。据我们所知,只有三项主要工作专门针对这一问题:ExtraNet、ExtraSS和STSS。这些方法使用了扭曲算法,通过一个运动矢量(MV)来转换帧。扭曲算法常常导致某些区域出现无效像素和孔洞,以及在其他区域产生错误的阴影。各种方法如使用神经网络已被用于纠正这些问题。它们使用存储在G缓冲区中的信息——这些是渲染引擎中存储场景不同属性(如场景深度、粗糙度等)的数据结构。尽管如此,这些方法在具有多个角色和光源的复杂动态环境中并未产生令人满意的成果。除了质量问题,这些方法的运行时间由于大型神经网络的存在而显著。请注意,最新工作ExtraNet是一个纯粹在时间域中插入帧的帧生成方法,而另外两个则提出了在时间和空间域中进行超采样的联合神经网络。我们专注于时间域。

现在,我们介绍一些我们将用于解决方案的背景技术。

在本文中,我们引入了PatchesEX,一种显著不同于以往帧外推方法的新方法。据我们所知,我们的工作是第一个明确将感知敏感性作为帧外推设计原理的。这是至关重要的考虑,因为前景区域通常表现出比背景区域显著更多的视差。这种视差差异导致了明显的遮挡和反遮挡效果,需要特别关注。与以往的工作通常在整个帧上进行统一处理不同,我们可能忽略了关键内容而关注于重要性较低的区域,我们的方法将帧分割为前景和背景区域,考虑了人类视觉系统的特性(称为前景-背景分割)并分别处理这些区域。

我们的外推管道首先使用当前的MV对帧进行扭曲,作为外推帧的初始预测。由于扭曲后的帧可能在反遮挡区域有无效像素,在某些区域有错误的阴影,因此我们提出了一种新的神经网络来修复这些问题。我们生成两个二进制掩码:一个用于识别需要修复的反遮挡区域,另一个用于前景-背景分离。然后,将这些掩码作为输入提供给专门用于修复无效像素和校正阴影的神经网络。我们的神经网络利用可变形卷积,使模型能够自适应地关注内容特定的变换。此外,之前的外推方法依赖多个G缓冲区来进行扭曲、标记无效像素并使用神经网络修复这些像素。然而,这些G缓冲区生成成本高昂,且通常不适用于游戏和VR引擎中的前向渲染。为了解决这一限制,我们的方法仅使用场景深度和MV,使其轻量且适用于前向和延迟渲染管道。此外,我们还引入了一种基于小波变换(WT)的滤波器剪枝策略,使神经网络在减少计算成本和运行时间的同时保持高性能。

目前,我们缺乏大规模公开可用的数据集或工作负载来表征图形应用中的实时渲染。为此,我们创建了一个数据集,通过从Epic Games下载模型和场景文件,并使用Unreal Engine(v5.1)进行渲染。我们的数据集包含多种动画序列,涵盖多样化的角色、背景场景、照明效果和摄像机运动。请注意,我们的贡献是通用的,不限于我们选择的评估框架。

总结一下,我们的主要贡献如下:
① 我们提出了一种轻量级的帧外推管道,不依赖昂贵且与渲染模式特定的G缓冲区。
② 我们提出了一种新颖的感知引导神经网络,利用可变形卷积对前景和背景区域进行不同处理。
③ 我们精心整理了一个包含广泛动画序列的全面数据集,涵盖多样化的角色、背景、照明设置和摄像机运动。
④ 为了减少计算成本和运行时间,我们提出了一种新颖且定制的滤波器剪枝技术,从神经网络中移除不重要的滤波器。这使网络更小更快,同时仍能产生高质量的结果。
⑤ PatchesEX在PSNR(峰值信噪比)方面分别比最近的外推方法ExtraNet和ExtraSS提升了61.32%和49.21%。
⑥ 提出的修复网络比最近竞争工作ExtraNet和ExtraSS分别快5倍和2倍。

我们采用了一种基于小波变换(WT)的滤波器剪枝技术来移除对应低重要性的特征图的滤波器。这种方法压缩了网络的大小,使其实现更高效。我们的剪枝策略由区域特定的感知相关性指导,并受到观察到前景区域通常包含高频内容,而背景区域则由低频成分主导的启发。为了捕捉这一区别,我们对特征图应用了小波变换,这使我们能够将它们分解为频率带,同时保留空间信息。与其他频率变换不同,小波变换提供了高频和低频特征的局部视图,使其非常适合需要空间意识的任务——如区分前景和背景。然后,我们计算这些频率带中每个特征图的能量,以得出每个滤波器的感知重要性评分。主要贡献于低重要性(通常为背景)区域的滤波器被剪枝。

假设我们有一个具有L个卷积层的CNN,第?个卷积层有N?个滤波器。第?层的输出特征图可以表示为F?。如果计算第j个特征图的WT,它会得到四个频率域组件:低频组件LL、水平高频组件HL、垂直高频组件LH和对角高频组件HH。因此,第?层的WT图可以表示为WT?。我们然后计算每个特征图在两个频率带中的能量如下:

这里,Ej,LF和Ej, HF分别指第j个特征图在低频和高频带中的能量。我们定义了一个标量感知重要性评分,通过一个可调节的超参数α(参见公式9)来融合这两个能量项。

这里,α(=0.8)控制前景活动与背景响应的权重。根据先前研究,由小波变换生成的个体特征图的重要性评分对输入图像具有鲁棒性。最后,我们按重要性评分升序排序滤波器,并修剪排序后的特征图对应的滤波器。修剪后的网络随后重新训练,这个修剪-再训练过程在200个epoch中重复进行,使用批量大小为128。

在本节中,我们比较了PatchesEX与各种最新的帧外推技术。由于所有这些方法都依赖机器学习,我们在我们的数据集上微调了它们各自的神经网络后再评估其性能。

随后,我们进行了一项消融研究,以分析PatchesEX各个组成部分对其整体效果的贡献。这有助于隔离每个组成部分对PatchesEX整体性能的贡献。我们评估了三种PatchesEX的不同变体:一种不使用前景-背景分割,另一种不使用可变形卷积层,第三种不考虑感知损失。这些变体与原始方法的定量比较见表8。我们从结果中得出以下观察:

这些结果突显了前景-背景分割对提高图像质量的重大影响。不进行分割时,平均PSNR下降了近4.14 dB。

同样,我们看到可变形卷积层的影响,PSNR提高了4.0 dB。

同样,我们观察到在神经网络训练中包含的感知损失对我们方法的影响,PSNR提高了1.61 dB。这些发现对于SSIM也是一致的。这强调了在改进重建帧的像素级保真度和结构相似性方面纳入感知损失的有效性。

在本节中,我们比较了PatchesEX与两种最新的插值方法的性能。插值方法包括Softmax Splatting(SS)和EMA-VFI。这两种方法都是基于深度神经网络(DNN)的技术。SS使用光学流进行前向扭曲。然而,在这种方法中,多个像素可能映射到帧中的同一目标位置。SS使用了一个修改的Softmax层,该层利用帧的深度数据来解决这种模糊性。EMA-VFI使用一个变压器网络进行帧插值。

此外,我们还进行了定量比较。表9展示了PatchesEX与EMA-VFI和SS的定量评估,以PSNR、SSIM和VMAF指标表示。从这些结果中,我们得出以下观察:

在PSNR方面,PatchesEX在大多数场景中都优于EMA-VFI和SS。即使在不是最佳的情况下,性能差距仍然微乎其微。平均而言,PatchesEX在PSNR方面比EMA-VFI提高了1.68 dB,比SS提高了1.21 dB。

在SSIM方面,PatchesEX在多个场景中表现出色。这是因为插值方法往往会引入模糊,这会降低结构保真度并导致较低的SSIM值。相比之下,PatchesEX更好地保留了精细的结构细节,从而在重建帧中实现了持续较高的SSIM得分。

我们还评估了PatchesEX在高分辨率帧中的性能。在这一领域,标准做法是使用较低分辨率(如360p或720p)进行外推,然后使用空间超采样来提高所有帧(原始和生成)的分辨率。所有以前的工作都采用了相同的方法。然而,为了获得我们算法效率的宝贵见解,让我们评估它在直接处理全高清分辨率帧(即1080p)时的效果。这是个思想实验。我们保持相同的实验设置并使用相同的评估指标。

图13显示,在这种设置下,外推的帧与GT非常接近。表13报告了在各种帧分辨率下,PatchesEX在基准测试中的平均PSNR(dB)、SSIM和LPIPS值。为了节省空间,我们没有展示所有结果。然而,与内置空间超采样器的ExtraSS进行了比较。代表性结果见表13。

为了定量验证我们前景背景分割的有效性,我们将我们的二进制分割掩码与使用MLNet生成的人类视觉显著性图进行比较,MLNet是一个最先进的模型,用于预测感知敏感性或人类注意力。我们使用交并比(IoU)作为评估指标,以衡量我们的分割与预测显著区域的匹配程度。具体来说,对于我们多样化的场景集中的每一帧,我们计算我们的二进制分割掩码与二进制MLNet显著性图之间的IoU,针对不同的运动和深度值阈值。我们的方法在使用运动阈值0.1(即最大运动值的10%)和场景深度阈值0.8(即深度值小于最大值的80%)定义前景时,平均IoU达到0.71。这些阈值对应我们表现最佳的设置,其中前景区域与MLNet预测的显著区域有很强的对齐。为了进一步验证我们的分割的鲁棒性,我们评估了各种阈值下的性能:

这些变化帮助我们分析分割质量对阈值选择的敏感性。如预期,过于宽松的阈值(例如运动 > 0.05 和深度 < 0.95)往往会导致背景区域的过度分割,降低IoU得分,而过于严格的阈值(例如运动 > 0.2 和深度 < 0.6)可能会遗漏前景中的显著部分,同样导致对齐不佳。这些结果定量地确认了我们的分割策略能够可靠地针对感知重要的区域,这些区域与人类视觉注意力高度匹配。

尽管PatchesEX在所有情况下都能生成合理的帧,但我们的方法仍有几个限制。特别是,我们没有引入专门的算法来处理屏幕外的区域,这可能会影响外推质量,尤其是在图像边界附近,特别是在快速全局摄像机运动时。图14(上排)展示了这种情况,当摄像机快速移动时,图像边缘会出现明显的伪影。这些区域在之前未在屏幕上出现,因此缺乏来自先前帧的参考信息。此外,在具有高度复杂几何形状的场景(例如密集的灌木丛)中,我们的方法在高分辨率下可能会产生视觉伪影。这在图14的下排中得到展示,其中在4K分辨率下外推的帧出现了在较低分辨率输出(如1080p)中未见的扭曲,表明我们的当前网络设计可能尚未完全优化用于空间超采样。

本文总结了PatchesEX方法,该方法旨在以外推的速度提供插值的质量。我们提出了一个感知引导的神经网络,利用可变形卷积自适应地处理前景和背景区域。此外,为了减少模型大小和推理时间,我们采用了基于小波变换(WT)的滤波器剪枝方法,移除冗余滤波器。我们实现了比最近竞争工作ExtraSS高出48.46%的质量(PSNR)和2.6倍更好的运行时间。未来的工作中,我们计划开发一个统一的框架,共同解决时间外推和空间超采样,以增强高分辨率帧生成的时间一致性和空间保真度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号