通过强化学习引导的提示优化来提升稳定扩散中的美学图像生成效果
《Journal of Visual Communication and Image Representation》:Enhancing aesthetic image generation with reinforcement learning guided prompt optimization in stable diffusion
【字体:
大
中
小
】
时间:2025年11月17日
来源:Journal of Visual Communication and Image Representation 3.1
编辑推荐:
图像压缩中的量化损失可通过Turbo码思想设计的非线性变换框架优化。编码器采用并行组件编码、随机交织和 puncturing 分散信息损失,解码器通过迭代交互式处理提升重建精度,实验表明该方法在保持计算效率的同时显著优于现有CNN和Transformer基线。
图像压缩是多媒体研究中的一个重要领域,其核心目标在于在减少数据量的同时保持图像质量。传统的方法,如JPEG、BPG、JPEG2000和VVC等,通常采用模块化设计,通过手动优化的组件实现这一目标。然而,这些方法在压缩性能上往往受到瓶颈的限制,尤其是在处理高比特率与失真之间的平衡时。近年来,学习型图像压缩(Learned Image Compression, LIC)作为一种新兴的压缩技术,逐渐展现出巨大的潜力。LIC方法通过端到端的神经网络训练和全局优化,能够在保持图像质量的同时,实现更优的压缩效果。
LIC的基本框架通常基于自编码器(Autoencoder),它包括三个主要步骤:特征变换、量化和熵编码。在这一过程中,输入图像首先被编码为一个紧凑的特征表示,然后通过量化操作将其转换为离散值,最后使用熵编码(如算术编码)对这些值进行压缩。为了提升压缩性能,近年来的研究主要集中在优化特征变换过程、改进量化器设计以及增强熵模型的准确性。其中,特征变换是整个流程中的关键环节,其目的是在编码阶段生成高效的特征表示,并在解码阶段实现高质量的图像重建。目前,LIC中的特征变换方法可以分为基于卷积神经网络(CNN)和基于Transformer的两种。
基于CNN的方法,如GDN和ResBlock系列,通过堆叠非线性操作或残差单元来增强编码器的非线性能力。注意力机制及其变体进一步提升了CNN网络的性能,通过选择性地强调重要特征并抑制冗余信息,提高图像重建的准确性。然而,CNN的局部感受野限制了其在建模全局上下文方面的能力,这在一定程度上影响了进一步的压缩优化。相比之下,基于Transformer的方法能够捕捉特征序列中的长距离依赖关系,从而更有效地建模全局信息。例如,Zuo等人在Transformer结构中引入了窗口注意力机制,以捕捉相邻区域之间的相关性。尽管如此,Transformer的二次时间复杂度和高内存需求,使得在计算效率与压缩性能之间取得平衡成为一大挑战。
为了解决这一问题,一些混合方法也逐渐被提出,如Liu等人提出的双分支Transformer-CNN混合块。这种方法结合了CNN和Transformer的优势,实现了良好的压缩效果。总体而言,现有的特征变换方法主要集中在构建复杂的多分支结构,以消除冗余并捕捉内容相关性。然而,这些方法在消除冗余信息和保留有价值信息之间的权衡上仍有不足。在特征变换和量化过程中,下采样不可避免地导致关键信息的连续丢失,这会严重影响图像的准确重建。
为了应对这一挑战,本文提出了一种新的视角,将量化器建模为具有均匀噪声的广义信道。这种方法将LIC设计的重点从单纯生成紧凑的特征表示,转向减少信道对特征表示的负面影响,从而实现更精确的重建。我们受到Turbo码的启发,提出了一种类似Turbo码的非线性变换方法(Turbo-like Nonlinear Transformation, TLNT)。该方法在编码器和解码器中分别设计了不同的模块,以增强信息保留能力并减少下采样和量化带来的信息损失。
在编码器端,我们提出了TLNT-E,它通过并行的组件编码单元、随机交织和点蚀操作,实现信息损失的分散化,同时保留关键信息。这种设计相比现有的非线性变换方法,具有更低的计算成本。在解码器端,我们提出了TLNT-D,它通过迭代的特征信息交换,使得解码器卷积之间能够进行协作操作,从而实现更精确的图像重建和更优的压缩性能。TLNT-D的设计灵感来源于Turbo码中的迭代解码机制,通过不断优化解码过程,提高图像质量。
为了验证我们方法的有效性,我们进行了多项实验。实验结果表明,TLNT方法在保持参数数量和计算复杂度的同时,能够显著优于当前最先进的非线性变换技术。此外,我们还进行了消融实验,以评估每个组件对整体性能的贡献,并验证我们的设计思路。消融实验基于LIC和Turbo码的设计原则,使得我们可以系统地评估各个模块的作用。实验结果显示,TLNT-E和TLNT-D的结合在提升图像质量方面具有显著效果。
在数据集和实现细节方面,我们使用了CLIC训练数据集,该数据集通过随机裁剪生成了247,576张样本图像,每张图像的尺寸为3 × 256 × 256像素。在评估阶段,我们采用了标准的Kodak和Tecnick数据集。Kodak数据集包含24张图像,每张图像的尺寸为3 × 512 × 768或3 × 768 × 512像素。Tecnick数据集包含100张图像,每张图像的尺寸为3 × 1200 × 1200像素。评估指标包括每像素比特数(bits per pixel, bpp)、峰值信噪比(peak signal-to-noise ratio, PSNR)以及多尺度结构相似性等。
通过这些实验,我们验证了TLNT方法在实际应用中的有效性。在保持计算效率的同时,TLNT能够显著提高压缩性能,从而在图像质量与数据压缩之间取得更好的平衡。此外,我们还探讨了如何进一步优化TLNT方法,以提升其在实际应用中的表现。例如,我们可以考虑引入更先进的特征提取技术,或者在编码器和解码器中采用更复杂的结构,以增强信息保留能力。
本文的主要贡献在于,我们提出了一种全新的视角,将量化器视为具有均匀噪声的广义信道,并在此基础上设计了一种类似Turbo码的非线性变换方法。这种方法不仅能够有效减少信息损失,还能在保持计算效率的同时,实现更优的压缩效果。此外,我们还通过实验验证了该方法的有效性,并展示了其在实际应用中的优势。这些成果为未来的研究提供了新的方向,并为学习型图像压缩技术的发展奠定了坚实的基础。
在未来的工作中,我们计划进一步优化TLNT方法,以提升其在不同应用场景下的适应性。例如,我们可以探索如何在不同的图像类型和压缩需求下调整TLNT的结构,以实现更广泛的适用性。此外,我们还希望将TLNT方法与其他先进的压缩技术相结合,以进一步提升压缩性能。同时,我们也关注如何在实际应用中降低计算复杂度,使得TLNT方法能够在资源受限的设备上运行。
总之,本文提出了一种基于Turbo码原理的非线性变换方法,通过将量化器建模为具有均匀噪声的广义信道,从而优化了学习型图像压缩的性能。TLNT方法在编码器和解码器中分别设计了不同的模块,使得信息损失得以有效减少,图像重建的准确性得到提升。实验结果表明,TLNT方法在保持计算效率的同时,能够显著优于当前最先进的非线性变换技术。这些成果为未来的研究提供了新的思路,并为学习型图像压缩技术的发展做出了重要贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号