面向压缩图像高效超分辨的边缘感知可重参数化网络:混合瓶颈与空间注意力机制研究

《IEEE Access》:Edge-Aware Reparameterizable Network With Hybrid Bottlenecks and Spatial Attention for Efficient Compressed Image Super-Resolution

【字体: 时间:2025年12月12日 来源:IEEE Access 3.6

编辑推荐:

  本文推荐一项针对压缩图像超分辨率重建的创新研究。为解决有损压缩导致的图像质量严重退化问题,研究人员开展了边缘感知可重参数化网络(ERNCSR)的研究。该网络通过集成混合瓶颈模块、固定边缘滤波器和增强空间注意力机制,在训练后能重参数化为轻量级单路径模型。实验表明,ERNCSR在保持仅13.6K参数的极致轻量化同时,在Set5、Urban100等数据集上对JPEG、WebP、AVIF等多种压缩格式均取得最优PSNR/SSIM指标,推理速度提升超20倍,为资源受限设备上的实时压缩图像增强提供了高效解决方案。

  
在数字图像无处不在的今天,我们却常常面临一个尴尬困境:为了节省存储空间和传输带宽,图像通常需要经过有损压缩处理,但这一过程却以牺牲画质为代价。当这些被压缩过的低分辨率图像需要放大查看时,传统超分辨率技术往往力不从心,甚至会将压缩伪影(如块状效应、振铃效应)一并放大,导致视觉效果大打折扣。尤其令人困扰的是,当前主流压缩格式各具特色——JPEG的块效应、WebP的预测失真、AVIF的频带衰减,每种格式都带来独特的修复挑战。更棘手的是,现有的高性能超分辨率模型往往需要巨大的计算资源,难以在手机、嵌入式设备等资源受限环境中落地应用。
针对这一系列挑战,来自土耳其Trakya大学的Oguz Kirat和Tarik Yerlikaya在《IEEE Access》上发表了一项创新研究,提出了一种名为ERNCSR的边缘感知可重参数化网络。这项研究的核心目标是打造一个既能高效处理多种压缩图像,又能在资源受限设备上实时运行的超分辨率解决方案。
研究人员巧妙地将结构性重参数化技术引入压缩图像超分辨率领域。这种技术的神奇之处在于,它允许网络在训练时采用复杂的多分支结构充分学习图像特征,而在部署时却能“变身”为简单的单路径网络,兼顾了训练效果和推理效率。ERNCSR的核心创新体现在其精心设计的可重参数化边缘感知多分支模块中,该模块融合了多种异构组件:混合瓶颈块(包括倒残差瓶颈块IBRB和扩展-压缩块ESB)负责捕捉多尺度特征,固定拉普拉斯滤波器分支专门增强边缘信息,标准卷积分支保障基础特征提取。这些分支在训练结束后可通过代数融合为单一的3×3卷积核,实现模型参数从257.3K到13.6K的惊人压缩,推理速度提升超过20倍。
为进一步提升模型性能,研究团队还在网络中引入了增强空间注意力(ESA)机制,该模块能自适应地聚焦于图像中需要重点修复的区域,如边缘和纹理丰富区域,而计算开销几乎可忽略不计。
训练策略方面,研究团队采用了两阶段课程学习方案:首先在未压缩的双三次降采样图像上进行预训练,让网络掌握基本的超分辨率能力;随后在动态模拟的JPEG、WebP和AVIF压缩图像上进行微调,使网络适应真实世界的压缩伪影。损失函数则融合了Charbonnier损失、边缘保持损失和结构相似性(SSIM)损失,从像素精度、边缘保真度和感知质量多角度指导网络优化。
关键技术方法方面,作者主要采用了结构性重参数化技术将训练时多分支网络转换为推理时单路径架构;设计了混合瓶颈模块(IBRB和ESB)结合固定拉普拉斯边缘滤波器;引入增强空间注意力(ESA)机制;采用两阶段课程学习策略,使用DIV2K和Flickr2K数据集,先在未压缩图像上训练,再在动态混合的JPEG/WebP/AVIF压缩图像上微调;使用复合损失函数优化;并实现了内存高效的每工作缓存机制加速训练。
整体网络架构
ERNCSR采用经典的三阶段设计:浅层特征提取、深层特征提取和图像重建。浅层模块快速捕获低层图像统计信息;深层部分通过堆叠四个REMB模块构成残差多模块注意力块(RMAB),逐步细化特征;最终上采样模块通过PixelShuffle操作重建高分辨率图像。全局残差连接确保网络专注于学习高频残差信息,这对细节恢复至关重要。
未压缩图像结果
在理想条件下(未压缩双三次降采样图像),ERNCSR在Set5、Set14、Urban100、DIV2K和Manga109五个标准数据集上均表现出稳定优势。特别是在漫画类图像的Manga109数据集上,PSNR比同类轻量模型ECBSR高出0.18dB,证明其多分支架构即使在没有压缩伪影干扰的情况下也能有效捕捉高频细节。
JPEG压缩图像结果
面对JPEG压缩引入的典型块状伪影,ERNCSR展现了出色的处理能力。在质量因子40-80的测试范围内,ERNCSR在所有数据集上均保持PSNR领先。这表明该网络能有效平滑块状伪影同时保留底层结构内容,在信号保真度方面优势明显。
WebP压缩图像结果
WebP采用更复杂的混合压缩方案,其预测性伪影与JPEG有显著差异。ERNCSR在这一领域表现出惊人的稳定性,在50种测试场景中49项取得最佳PSNR和SSIM分数,证明课程学习策略结合模型结构能成功泛化至WebP格式特有的预测伪影。
AVIF压缩图像结果
作为图像压缩技术的前沿代表,AVIF提供了三种编解码器中最高的基线保真度。ERNCSR在这一最具挑战性的测试中同样表现优异, consistently在PSNR和SSIM上领先,表明其压缩感知微调策略不会过拟合简单压缩统计特征(如JPEG),而是能有效泛化至现代压缩流程。
定性结果对比
视觉对比进一步证实了ERNCSR的优越性。在羊毛帽纹理重建任务中,双三次插值产生模糊纹理,SRCNN出现轻微光晕,FSRCNN/ESPCN以振铃伪影为代价锐化边缘,ECBSR过度平滑纱线,而ERNCSR成功恢复了对角线纤维图案和清晰脊线,PSNR比双三次提高0.42dB。
在JPEG压缩建筑图像中,ERNCSR沿对角线边缘提供了最清晰的重建效果;在WebP压缩标志图像中,有效去除伪影的同时保持文字清晰度;在AVIF压缩屋顶细节中,最佳消除了AVIF块状伪影并重建出更清晰的对角线条纹。
消融研究验证
通过消融实验,研究团队验证了各核心组件的贡献。异构分支设计相比同构分支在Urban100数据集上全面提升了PSNR指标,证明多操作符混合能更有效捕捉多样化特征模式。复合损失函数中,Charbonnier损失(90%)、边缘损失(5%)和SSIM损失(5%)的加权组合在平衡像素精度、边缘保持和感知质量方面达到最优。各模块移除实验显示,增强空间注意力(ESA)贡献最大,其次是边缘分支、扩展-压缩块(ESB)和倒残差瓶颈块(IBRB),各组件效果具有累加性。
重参数化效益分析
重参数化实现了18.9倍的参数减少(257.3K→13.6K),在不同设备上均带来显著加速。在物联网设备上推理速度提升约11-12倍;桌面GPU提升8-9倍;笔记本电脑SoC提升9-10倍;桌面CPU提升最大达20.64倍。这种效率提升源于多分支处理的消除,简化了网络结构,改善了缓存利用并降低了内存带宽需求。
研究结论表明,ERNCSR成功将重参数化范式扩展至压缩图像超分辨率领域,通过异构操作融合和边缘感知设计,在保持极致轻量化的同时实现了优异的重建质量。该研究的核心价值在于首次将固定边缘滤波器、混合瓶颈模块和空间注意力机制统一到可重参数化框架中,并通过两阶段课程学习使网络能同时处理未压缩图像和多种压缩格式图像。
尽管ERNCSR在压缩图像超分辨率方面取得了显著进展,研究团队也坦诚指出了其局限性。模型的泛化能力受训练数据分布限制,对极低质量输入或未见过的编解码器可能表现不佳;对手绘、卡通等非自然图像域的适应性有限;且当前设计专注于静态图像,未考虑视频超分辨率所需的时间一致性建模。
这项研究的重要意义在于为资源受限环境下的实时图像增强提供了实用解决方案,填补了轻量级模型在压缩图像处理方面的空白。未来工作可扩展至JPEG-XL等新兴格式,结合量化技术进一步优化效率,并探索时域一致性以支持视频超分辨率应用。ERNCSR的开源发布(https://github.com/okrt/ERNCSR)将为社区提供有价值的基准,推动高效图像复原技术的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号