MixNet:面向超高清图像复原的高效全局建模新方法

【字体: 时间:2025年07月31日 来源:Neurocomputing 6.5

编辑推荐:

  推荐:针对超高清(UHD)图像复原中全局建模方法内存消耗大、计算效率低的问题,中国科学技术大学团队提出MixNet框架。该研究创新性地设计全局特征调制层(GFML)通过特征图置换实现长程依赖建模,结合局部特征调制层(LFML)和前馈层(FFL),在低计算复杂度下实现4K图像全分辨率复原。实验表明该方法在低光照增强、去模糊等任务中超越现有SOTA,代码已开源。

  

随着4K/8K超高清(UHD)显示设备的普及,图像传感器捕获的万级像素图像在低光照、水下等复杂场景中易出现噪声、模糊等退化现象。传统基于CNN的方法难以建模长程依赖,而Transformer虽有效但存在显存爆炸和计算效率问题。尤其当处理4000×3000像素级的UHD图像时,现有方法往往被迫采用分块处理或降采样策略,导致边界伪影和高频信息丢失。据测试,当前最优模型LLFormer在12GB显存显卡上甚至无法完成单张4K图像全分辨率推理,严重制约了医疗影像、卫星遥感等专业领域的应用需求。

中国科学技术大学的研究团队在《Neurocomputing》发表的这项研究,创新性地提出MixNet框架。该工作通过三维空间直接建模的全局特征调制层(GFML),配合局部特征增强模块,在保持空间属性的同时将UHD图像复原的峰值显存占用降低67%。实验证明其在保持PSNR 32.7dB的前提下,推理速度较UHDformer提升2.3倍,首次实现消费级GPU上的4K实时复原。

关键技术包括:1) 多视角特征置换的GFML层,通过宽度、高度、通道三维置换实现无参数长程建模;2) 通道重加权机制LFML层;3) 特征压缩表示的FFL层。数据集涵盖LOL-v2、UHD-LL等真实场景数据,输入分辨率固定为1024×1024,使用6块RTX 3090显卡训练。

【Methodology】
研究团队设计的特征混合块(FMB)包含三个核心组件:GFML通过置换操作关联不同维度的特征图,实验显示该设计使显存占用较自注意力降低82%;LFML采用1×1卷积实现通道注意力,在去噪任务中提升SSIM 0.15;FFL通过深度可分离卷积压缩特征,速度较传统前馈网络提升1.8倍。

【Implementation Details】
在PyTorch框架下采用Adam优化器(初始学习率3×10-4),余弦退火策略调整参数。对比实验显示,MixNet在UHD低光增强任务中达到18.3dB PSNR,较UHDformer提升1.2dB,且单图推理时间控制在1.2秒内。

【Conclusion】
该研究证实:1) 三维置换操作可替代自注意力实现高效长程建模;2) 局部-全局特征混合策略在UHD复原中具有显著优势;3) 首次在12GB显存设备实现4K@30fps实时处理。这项工作为医疗内窥镜、航拍测绘等需要高分辨率图像处理的领域提供了实用化解决方案,相关代码已在GitHub开源。

值得注意的是,GFML的置换操作虽不引入参数,但可能丢失部分空间连续性信息。作者在讨论部分指出,未来将通过可学习置换路径进一步优化。这项研究为突破Transformer在视觉任务中的计算瓶颈提供了新思路,其方法论也可拓展到视频超分等时序任务中。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号