混合纹理-结构学习在高光谱图像分类中的应用
《Pattern Recognition》:Hybrid Texture-Structural Learning for Hyperspectral Image Classification
【字体:
大
中
小
】
时间:2025年10月08日
来源:Pattern Recognition 7.6
编辑推荐:
HTLNet通过纹理动态卷积整合高频纹理信息,并利用多头纹理光谱自注意力机制捕捉长程依赖,有效融合频域纹理与空域特征,提升高光谱图像分类性能。
在当前的遥感图像处理和分类任务中,高光谱图像分类(Hyperspectral Image Classification, HIC)是一个具有重要研究价值的领域。高光谱图像通过捕捉物体在电磁波谱中的多个波段信息,能够提供比传统光学图像更为丰富的地表特征数据。这些数据不仅包含了物体的光谱信息,还包含了其空间结构信息,使得高光谱图像在土地覆盖分析、环境监测、资源勘探等领域具有广泛的应用前景。然而,高光谱图像的分类仍然面临诸多挑战,例如地表覆盖物的复杂分布、光谱与空间信息之间的耦合关系、以及图像中噪声和混叠效应的干扰等。为了克服这些困难,研究者们不断探索新的网络架构和特征提取方法,以提升分类的精度和鲁棒性。
近年来,卷积神经网络(Convolutional Neural Networks, CNNs)和Transformer模型在高光谱图像分类中得到了广泛应用。CNNs以其强大的局部特征提取能力,能够有效捕捉高光谱图像中的空间结构信息。而Transformer模型则凭借其全局注意力机制,擅长于建模长距离依赖关系,从而在处理复杂地表覆盖模式时表现出色。然而,这两种模型在处理高光谱图像时也存在各自的局限性。CNNs虽然在空间特征提取方面具有优势,但在捕捉长距离的光谱-空间依赖关系时表现不足;而Transformer模型虽然能够处理全局信息,但在局部细节感知和计算效率方面仍有待提升。因此,将CNN与Transformer模型进行融合,构建混合网络结构,成为提升高光谱图像分类性能的重要研究方向。
现有的混合网络结构主要通过结合CNN和Transformer的特性,实现对高光谱图像中光谱与空间信息的综合建模。例如,一些研究提出在CNN的某些层中引入Transformer模块,以增强模型对长距离依赖关系的感知能力;另一些研究则通过调整网络结构,使得Transformer能够更好地与CNN的局部特征提取机制协同工作。然而,这些方法在一定程度上忽略了高光谱图像中蕴含的丰富纹理结构信息,尤其是通过小波变换等方法提取的高频纹理特征。这些高频纹理信息在描述地表覆盖物的细微差异和复杂结构方面具有重要意义,但尚未被充分挖掘和利用。
为了弥补这一不足,本文提出了一种新的混合纹理-结构学习网络(Hybrid Texture-Structural Learning Network, HTLNet),旨在通过融合CNN和Transformer的优势,同时有效利用高光谱图像中的纹理结构信息,从而提升分类的精度和鲁棒性。HTLNet的核心思想是通过引入纹理动态卷积(Texture Dynamic Convolution, TDConv)和多头纹理光谱自注意力(Multi-Head Texture Spectral Self-Attention, MHTS2A)模块,实现对高光谱图像中高频纹理结构和长距离光谱-空间依赖关系的全面建模。TDConv模块能够将高频纹理结构信息动态地整合到卷积核参数的学习过程中,从而增强模型对局部特征的感知能力;而MHTS2A模块则通过将纹理信息和光谱信息引入自注意力机制,实现对长距离依赖关系的更精确建模。此外,HTLNet还特别关注了传统下采样方法(如平均池化)可能带来的信息损失问题,通过优化网络结构,减少这种损失,从而提升模型的整体性能。
在实验部分,本文采用多个公开的高光谱图像数据集,包括Indian Pines、Pavia University、Salinas、Houston和WHU-Hi-LongKou,对HTLNet的性能进行了全面评估。实验结果表明,HTLNet在这些数据集上的分类性能显著优于其他主流的混合网络结构。具体而言,在Indian Pines数据集上,HTLNet的分类准确率比其他方法高出0.48%;在Pavia University数据集上,HTLNet的准确率提升了2.67%;在Salinas数据集上,HTLNet的准确率提高了1.32%;在Houston数据集上,其准确率增长了1.14%;而在WHU-Hi-LongKou数据集上,HTLNet的准确率提升了0.63%。这些结果表明,HTLNet在不同数据集上的泛化能力较强,能够有效适应各种复杂的高光谱图像场景。
HTLNet的设计理念源于对高光谱图像特征的深入分析。首先,高光谱图像的每个像素点都包含了丰富的光谱信息,这些信息可以用于区分不同的地表覆盖物。然而,仅依赖光谱信息往往难以准确描述地表覆盖物的空间分布特征,因此需要结合空间信息进行综合建模。其次,高光谱图像中的纹理结构信息对于分类任务同样至关重要。纹理结构不仅能够反映地表覆盖物的表面特性,还能够揭示其内部结构和组成成分。然而,传统的CNN和Transformer模型在处理这些纹理结构信息时往往存在局限性,尤其是在高频纹理信息的提取和利用方面。
为了更好地利用高频纹理信息,HTLNet引入了TDConv模块。TDConv的核心思想是将高频纹理结构信息动态地整合到卷积核的参数学习过程中。通过这种方式,TDConv能够更准确地捕捉高光谱图像中的局部特征,同时减少对传统卷积操作的依赖。此外,TDConv还能够自动调整卷积核的参数,使其适应不同的纹理结构特征,从而提升模型的灵活性和适应性。这种动态卷积机制不仅增强了模型对局部细节的感知能力,还能够有效降低计算复杂度,提高模型的运行效率。
在长距离依赖关系的建模方面,HTLNet采用了MHTS2A模块。该模块通过将高频纹理信息和光谱信息引入多头自注意力机制,使得模型能够在更广泛的范围内捕捉到光谱-空间依赖关系。相比于传统的Transformer模型,MHTS2A模块能够在不依赖下采样操作的情况下,实现对长距离依赖关系的更精确建模。此外,MHTS2A模块还能够通过多头机制,同时关注多个不同的特征子空间,从而增强模型对复杂地表覆盖模式的适应能力。这种多头自注意力机制不仅提升了模型的全局感知能力,还能够有效减少计算资源的消耗,提高模型的运行效率。
HTLNet的另一个重要创新点在于其对传统下采样方法的改进。在许多现有的Transformer模型中,为了减少计算复杂度,通常会采用下采样操作,如平均池化。然而,这些下采样操作往往会丢失大量的高频信息,从而影响模型的分类性能。为了克服这一问题,HTLNet在设计过程中特别关注了信息保留的问题,通过优化网络结构,使得模型能够在不依赖下采样的情况下,仍然能够有效建模长距离依赖关系。此外,HTLNet还结合了其他先进的技术,如多尺度特征提取、自监督学习等,以进一步提升模型的性能。
从实验结果来看,HTLNet在多个高光谱图像数据集上的表现均优于其他主流方法。这一结果表明,HTLNet在处理高光谱图像中的纹理结构信息和长距离依赖关系方面具有显著的优势。此外,HTLNet的结构设计也使得其在计算效率和模型泛化能力方面表现出色。相比于传统的CNN和Transformer模型,HTLNet能够在保持较高分类精度的同时,降低计算资源的消耗,提高模型的运行效率。这种高效的模型结构对于实际应用中的大规模高光谱图像处理任务具有重要意义。
在理论层面,HTLNet的设计不仅提升了分类的精度,还为高光谱图像处理提供了一种新的思路。传统的高光谱图像分类方法往往只关注光谱信息或空间信息,而HTLNet则通过融合高频纹理信息和长距离依赖关系,实现了对高光谱图像特征的更全面建模。这种融合方法不仅能够提升模型的分类能力,还能够增强其对复杂地表覆盖模式的理解能力。此外,HTLNet的结构设计还使得其能够更好地适应不同的高光谱图像场景,提高模型的鲁棒性和泛化能力。
在实际应用方面,HTLNet的高效性和准确性使其在多个领域具有广泛的应用前景。例如,在土地覆盖分析中,HTLNet能够更准确地识别不同地表覆盖物的细微差异,从而提高分类的精度和可靠性;在环境监测中,HTLNet能够有效捕捉地表覆盖物的纹理结构信息,为环境变化的检测和分析提供支持;在资源勘探中,HTLNet能够帮助识别潜在的资源分布区域,提高勘探的效率和准确性。此外,HTLNet的结构设计还使得其能够适应不同的硬件平台和计算环境,从而满足不同应用场景的需求。
综上所述,HTLNet是一种融合了CNN和Transformer优势的新型混合网络结构,能够有效利用高光谱图像中的纹理结构信息和长距离依赖关系,从而提升分类的精度和鲁棒性。实验结果表明,HTLNet在多个数据集上的表现均优于其他主流方法,显示出其在高光谱图像分类任务中的优越性。此外,HTLNet的结构设计还具有较高的计算效率和良好的泛化能力,使其在实际应用中具有广泛的适用性。未来,随着高光谱图像处理技术的不断发展,HTLNet有望在更多领域得到应用,并为高光谱图像分类任务提供新的研究思路和技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号