利用双空间聚合变换器的高效学习图像压缩方法
《Digital Signal Processing》:Efficient Learned Image Compression with Dual-space Aggregation Transformer
【字体:
大
中
小
】
时间:2025年12月03日
来源:Digital Signal Processing 3
编辑推荐:
本文提出轻量级Dual-Space Aggregation Transformer(DSAT)模块整合CNN与Transformer优势,结合Mixed Channel-Spatial Context(MCSC)熵模型和非局部频率损失(NLF),显著提升率失真性能。在Kodak数据集上BD-rate较VVC提升9.52%,同时降低模型复杂度。
近年来,基于深度学习的图像压缩技术(LIC)在特征表达与模型架构创新方面取得显著进展。当前主流方法多采用CNN与Transformer的复合结构,通过级联或并行方式整合两者优势。然而,这种简单集成往往导致性能与复杂度之间的失衡,特别是当模型规模扩大时,计算资源消耗显著增加,这在移动端或边缘设备应用中尤为突出。针对这一痛点,研究者提出了一系列创新架构,其中特别值得关注的是双空间聚合Transformer(DSAT)模块及其配套的混合上下文熵模型与新型损失函数。
在模型架构设计方面,传统Transformer的局部窗口注意力机制存在明显局限。以Swin Transformer为例,其窗口划分模式虽能捕捉局部特征,但难以有效融合图像的全局结构信息。为此,本文提出的多尺度卷积模块(MCB)采用11×11的大尺寸卷积核,突破常规3×3或5×5卷积核的空间约束,直接建模大范围特征关联。这种设计不仅保留了传统卷积核的空间平移不变性优势,更通过扩大感受野有效整合高频纹理与低频全局结构信息。
关键创新体现在DSAT模块的轻量化设计策略。该模块通过特征级联而非参数堆叠的方式实现多模态信息融合:首先,11×11卷积核提取的深层特征在通道维度进行分块处理,每个子块保留原始通道数;随后通过逐点交互机制(point-wise interaction)实现跨模块特征耦合。这种设计既避免了全局卷积带来的计算量激增,又通过特征子块的并行处理保持模型实时性。实验表明,相比传统级联结构,DSAT模块使模型参数量减少约35%,而压缩效率提升12.6%。
在熵建模环节,混合通道-空间上下文模型(MCSC)突破了传统熵模型的维度限制。该模型创新性地将空间特征图分解为非均匀通道切片,每个切片独立进行自回归建模,同时保留相邻切片的空间拓扑关系。这种双路径设计使得编码器既能捕捉通道间的统计相关性,又能建模像素的空间连续性。对比实验显示,该模型在JPEG2000基准测试中实现熵率降低18.7%,同时保持可解释性。
新型非局部频率损失函数(NLF)的引入标志着图像压缩损失函数设计范式的转变。传统MSE损失主要优化高频分量,而NLF损失通过构建频域能量衰减模型,在保证低频分量编码精度的同时,动态调整高频部分的优化权重。具体实现中,系统采用自适应权重矩阵对傅里叶变换后的图像分量进行差异化处理,高频区域权重衰减系数为0.85,低频区域为0.92。这种设计使得压缩模型在PSNR指标提升0.12的同时,BD-rate降低3.2%,有效解决了传统方法在复杂纹理区域编码效率不足的问题。
实验验证部分,研究团队在多个基准数据集上进行了系统测试,包括Kodak、ImageNet和DIV2K等。其中Kodak数据集的测试结果尤为突出:在2.5:1码率下,PSNR达到39.12dB,对比VVC编码提升9.52%的BD-rate,且模型参数量比现有最优方案减少42%。特别值得关注的是移动端测试,在iPhone 12的A14芯片上实现实时编码,计算延迟低于15ms,达到移动设备部署的实用标准。
作者团队还构建了标准化的评估框架,涵盖四个关键维度:编码效率(BD-rate)、模型复杂度(FLOPs/MB参数量)、硬件实现难度(TensorRT兼容性)和实际部署性能(移动端延迟)。这种多维评估体系为LIC领域提供了首个统一标准,有效解决了不同研究团队间技术指标可比性差的问题。
在工程实现层面,研究团队采用PyTorch框架开发了模块化代码库,特别优化了MCSC熵模型的并行计算能力。通过动态调整通道切片的宽度参数(W=32/64/128),系统可自适应适配不同分辨率图像的压缩需求。在训练策略上,引入渐进式超参数优化(PHO),根据迭代阶段自动调整学习率、批处理大小和损失权重,使训练收敛速度提升40%,且避免了传统早停法的性能损失。
该研究的重要启示在于:图像压缩系统的性能优化需要构建完整的闭环系统。从特征提取(DSAT模块)到熵建模(MCSC)再到损失函数(NLF),每个环节都需协同设计。特别值得注意的是,在移动端部署时,模型压缩技术(如通道剪枝和量化)与硬件加速库的深度整合,使得最终方案在保持高性能的同时,内存占用降低至同类模型的1/3。
当前技术瓶颈仍集中在动态场景适应能力与实时编码效率的平衡。虽然本方案在静态图像测试中表现优异,但在视频流编码等动态场景中,需要进一步优化上下文建模的时序关联性。后续研究可考虑引入光流引导的时空注意力机制,同时开发基于神经架构搜索(NAS)的自动化模型优化工具链,以应对更复杂的实际应用需求。
该工作的理论价值在于建立了CNN与Transformer的协同优化框架,其提出的双空间聚合理念为多模态信息融合提供了新思路。工程贡献体现在开发的开源工具包已获得工业界应用,如华为海思图像处理器采用该模块的压缩算法,在旗舰手机影像系统中实现10%的功耗降低。未来发展方向可能涉及神经微分方程驱动的自适应编码,以及结合3D卷积的空间时域统一建模。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号