FSIFusion:一种基于频率解耦和语义空间引导的红外与可见光图像融合交叉补偿方法

《Optics and Lasers in Engineering》:FSIFusion: A frequency decoupling and semantic space guided cross-compensation method for infrared and visible image fusion

【字体: 时间:2025年07月18日 来源:Optics and Lasers in Engineering 3.7

编辑推荐:

  图像融合通过整合不同模态图像的互补特征生成优势互补的融合图像。本文提出FSIFusion方法,通过分层语义特征提取单元(HSFEU)精准获取多模态语义表征,频率与语义特征跨补偿模块(FSFCCM)解耦高频/低频特征并实现跨域补偿,结合图像超分重建模块(UPRM)生成无伪影融合图像。实验表明该方法在质与量上均优于现有算法。

  图像融合技术的目标是将不同模态图像的互补特征进行整合,从而生成一幅信息更丰富、更具实用价值的融合图像。在众多图像融合技术中,红外图像与可见光图像的融合因其在军事、安防、医学等领域的广泛应用而受到高度重视。红外图像能够有效捕捉物体的热辐射特性,从而在目标显著性方面表现出色,但其在纹理细节的保留上存在局限。相反,可见光图像则具备较高的空间和纹理信息保真度,但在光照不足或极端环境下,目标的识别难度较大。因此,将红外图像与可见光图像进行融合,可以生成一幅既具备目标显著性又保留丰富纹理细节的图像,为后续的高级计算机视觉任务提供更准确的数据支持。

随着深度学习技术在计算机视觉领域的快速发展,其在多模态图像融合中的应用也逐渐成为研究热点。深度学习方法能够更准确地捕捉多模态数据的特征,并揭示不同模态之间的相关性和互补性,从而生成结构完整、信息丰富的融合图像。当前,红外与可见光图像融合的研究重点已从单纯提升基础视觉效果转向解决实际应用中的核心挑战,主要包括数据兼容性和任务适应性。一方面,研究者致力于克服多模态空间错位带来的融合问题;另一方面,他们尝试将高级视觉任务如图像分割和目标检测纳入统一的融合框架中,以实现更高效的图像处理流程。

现有的深度学习图像融合方法主要包括卷积神经网络(CNN)方法、生成对抗网络(GAN)方法、自编码器(AE)方法以及基于Transformer的模型。这些方法在一定程度上取得了良好的效果,但仍存在一些亟待解决的问题。首先,语义信息是人类可理解的图像内容,涵盖了图像的整体含义和细节特征,而频率信息则揭示了图像的内在结构和视觉属性,更关注场景的描述。目前,多数研究仍然将语义信息和频率信息分别处理,未能有效结合两者,导致融合效果受限。其次,由于网络模型的复杂性,图像特征在提取或融合过程中可能会部分丢失,这使得最终生成的融合图像难以保留源图像的关键信息。最后,图像的频率信息通常被划分为高频和低频成分,但在多模态图像融合过程中,这两种频率成分的丢失问题普遍存在,导致融合图像出现信息不完整或某一模态信息被过度强调的情况。

针对上述问题,本文提出了一种频率解耦与语义空间引导的交叉补偿方法——频率解耦与语义空间引导交叉补偿融合方法(FSIFusion)。该方法旨在同时保留图像的频率信息和语义信息,并减少融合过程中关键信息的丢失。具体而言,FSIFusion主要包括三个核心模块:层级语义特征提取单元(HSFEU)、频率与语义特征交叉补偿模块(FSFCCM)以及图像上采样重建模块(UPRM)。其中,HSFEU通过双分支结构提取红外图像和可见光图像的准确语义信息,并将其整合为多模态语义特征层。FSFCCM则通过引入信息域补偿策略,将高频和低频成分从语义嵌入中解耦,利用自适应通道加权对低频特征进行补偿,并在图像重建过程中对高频信息进行有效补偿。UPRM则通过逐级上采样和特征叠加的方式,将低频语义融合特征层与高频信息进行融合,最终生成一幅无伪影的融合图像。

本文的主要贡献可以归纳为以下几点:首先,提出了一种频率解耦与语义空间引导的交叉补偿方法,能够同时保留图像的频率信息和语义信息,减少融合过程中的关键信息丢失;其次,设计了层级语义特征提取单元(HSFEU),通过嵌套的语义一致性增强模块(SCEM)和改进的语义空间注意力模块(SSAM),确保多模态语义信息的准确提取与整合;第三,构建了频率与语义特征交叉补偿模块(FSFCCM)和图像上采样重建模块(UPRM),有效解决了多模态图像融合过程中高频和低频信息丢失的问题,以及模态偏倚现象;最后,通过在公开数据集上的大量实验,验证了所提出融合策略的优越性和良好的泛化能力,相较于其他先进的算法表现出更优的性能。

在方法设计方面,HSFEU的构建是FSIFusion的关键环节。HSFEU采用双分支结构,分别对输入的红外图像和可见光图像进行语义特征提取。每个分支内部包含语义一致性增强模块(SCEM)和改进的语义空间注意力模块(SSAM)。SCEM旨在增强图像的语义一致性,通过多层网络结构对图像内容进行深度挖掘,提取出具有代表性的语义特征。SSAM则通过引入空间注意力机制,使网络能够更精确地关注图像中的关键区域,从而提升语义信息的提取效果。HSFEU将两个分支提取的语义特征进行融合,生成多模态语义特征层,为后续的频率与语义特征交叉补偿提供基础。

接下来,FSFCCM模块负责将多模态特征融合为最终的语义融合特征。该模块引入了信息域补偿策略,通过将图像的频率信息与语义信息进行解耦,实现更精细的特征补偿。具体而言,FSFCCM利用卷积小波变换将图像特征分解为高频和低频成分。其中,低频成分通过残差机制被补偿至FSFCCM模块,以获取低频融合特征;而高频成分则通过Sobel算子提取,并在后续的图像重建过程中进行补偿。这种频率与语义信息的交叉补偿机制能够有效解决多模态图像融合过程中频率信息丢失的问题,同时提升融合图像的信息完整性和结构一致性。

在图像重建阶段,UPRM模块被引入以生成无伪影的融合图像。UPRM通过逐级上采样和特征叠加的方式,将低频语义融合特征层与高频信息进行融合。在上采样过程中,网络逐步扩大图像的尺寸,同时通过特征叠加确保融合图像在空间尺度上保持一致性。这种设计不仅能够减少图像重建过程中的伪影问题,还能有效保留源图像的关键信息,从而提升融合图像的整体质量。

为了验证FSIFusion的有效性,本文在多个公开数据集上进行了广泛的实验。实验结果表明,FSIFusion在定性和定量评估中均优于现有的先进算法。在定性评估方面,通过视觉对比可以发现,FSIFusion生成的融合图像在目标显著性、纹理细节保留以及整体信息完整性方面表现突出。在定量评估方面,采用多种评价指标,如均方误差(MSE)、峰值信噪比(PSNR)、结构相似性指数(SSIM)等,对融合图像进行客观分析。实验结果表明,FSIFusion在这些指标上均取得了较高的得分,证明了其在多模态图像融合任务中的优越性。

此外,本文还对FSIFusion中的关键参数进行了实验验证,以确保其在不同应用场景下的适应性和稳定性。通过调整网络结构、特征提取方式以及补偿策略等参数,研究者能够进一步优化FSIFusion的性能。实验结果表明,所设定的参数在大多数情况下均能取得较好的融合效果,证明了FSIFusion在实际应用中的可行性。

在实际应用中,FSIFusion方法能够为多种计算机视觉任务提供更高质量的输入数据。例如,在图像重建任务中,融合图像可以作为后续处理的基础,提升重建的准确性和清晰度;在目标检测任务中,融合图像能够更清晰地展示目标的边界和细节,从而提高检测的效率和精度;在可见红外再识别(VIReID)任务中,融合图像能够有效结合可见光图像的高分辨率和红外图像的目标显著性,提升再识别的准确性。因此,FSIFusion不仅在理论层面具有创新性,也在实际应用中展现出良好的潜力。

总体而言,FSIFusion方法通过频率解耦与语义空间引导的交叉补偿策略,有效解决了多模态图像融合中的关键问题。该方法在保持图像频率信息和语义信息的同时,减少了融合过程中的信息丢失,提升了融合图像的整体质量。实验结果表明,FSIFusion在多个数据集上的表现均优于现有方法,证明了其在多模态图像融合领域的有效性。未来,随着深度学习技术的不断进步,FSIFusion方法有望在更多实际场景中得到应用,并为多模态图像融合研究提供新的思路和方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号