针对铁路图像分类中局部和全局信息整合的优化编码器基础变换器

《Frontiers in Computer Science》:Optimized encoder-based transformers for improved local and global integration in railway image classification

【字体: 时间:2025年11月06日 来源:Frontiers in Computer Science 2.7

编辑推荐:

  铁路图像分类(RIC)中,Transformer因局部特征提取和训练效率不足面临挑战。本研究提出纯Transformer网络(PTN),创新性地设计“unfold+attention+fold”的Patch Embedding Transformer(PET)模块,通过自适应注意力机制模拟可变卷积核,有效融合局部与全局信息。同时,采用Operation Fusion的内存优化算法,减少28%内存消耗并提升35%训练速度。实验在四类铁路数据集上验证,PTN分类精度达99.29%-99.56%,优于CNN和现有Transformer模型,且推理速度提升22%-3.4倍,特别适合资源受限的铁路监测场景。

  铁路图像分类(RIC)是一项在铁路基础设施监测和安全评估中具有重要应用的任务,它涉及对复杂空间-光谱关系的高光谱数据集进行分析。这类数据通常来源于移动列车的采集,具有高度的维度和多尺度特征,包括从细微的轨道缺陷到大规模的轨道布局等。此外,实时监测系统需要时间一致性,而部署环境则可能受限于计算资源。传统的机器学习方法,如支持向量机(SVM)、决策树、随机森林和K近邻(KNN),虽然在提取光谱特征方面表现出色,但往往忽视像素之间的空间关系,导致在处理光谱相似但空间不同的材料时存在困难。此外,这些方法主要依赖手动定义的标签,难以应对复杂的空间结构。

随着深度学习的发展,卷积神经网络(CNN)因其在处理空间特征方面的优势,逐渐成为RIC的主要方法。然而,CNN中的固定卷积核限制了其在处理高维数据时的灵活性,尤其是在需要捕捉长距离依赖关系时。例如,1D-CNN仅关注光谱信息,而2D-CNN则通过小块提取空间信息,但忽略了高光谱数据内部的关联性。3D-CNN则尝试同时提取空间和光谱特征,但其受限的感知域仍无法有效建模长距离依赖关系。此外,针对铁路图像的多尺度特征,固定卷积核在处理从细粒度缺陷到大规模轨道结构时表现出一定的局限性。

为了克服这些挑战,研究者们尝试引入Transformer架构,该架构能够有效捕捉图像中的长距离关系,适用于高光谱图像(HSI)的全局信息处理。例如,HSI-BERT利用多头自注意力(MHSA)机制提取每个像素的全局信息,而SpectralFormer则通过逐块处理光谱信息,提取局部光谱序列特征。Hit结合了卷积操作与Transformer,以增强对光谱差异的识别能力。Swin Transformer和T2T-ViT则通过滑动窗口和分层令牌重建来处理局部信息,但这些方法在处理铁路数据时,可能无法充分捕捉跨尺度关系,尤其是在铁路基础设施中,局部和全局特征往往共存。

针对Transformer在处理局部特征方面的不足,本文提出了一种全新的纯Transformer网络(PTN)。PTN通过“unfold + attention + fold”机制模拟卷积操作,从而在不依赖固定卷积核的前提下提取局部特征。同时,PTN引入了基于相对注意力的Transformer模块,以整合全局信息。这种设计不仅克服了传统卷积方法的局限性,还能够动态调整感知域,以适应铁路图像中的复杂空间-光谱模式。此外,为了提升训练效率,本文设计了一种内存优化算法,该算法基于操作融合,通过减少内存访问频率,实现了35%的训练时间缩短和28%的内存消耗降低,同时保持与完整注意力计算的数学等价性。

实验部分在四个高光谱铁路图像数据集上进行了全面评估,包括Indian Pines、Pavia University、Houston 2013和Salinas。为了提高模型的泛化能力,避免过拟合,研究采用了K折交叉验证方法,将每个数据集划分为训练、验证和测试子集。实验结果显示,PTN在四个数据集上的整体准确率(OA)分别为99.29%、99.56%、99.27%和99.48%,显著优于基于CNN和Transformer的其他方法。例如,在Indian Pines数据集上,PTN比CoAtNet提高了1.5%的准确率,同时推理速度提升了22%。此外,PTN在处理有限样本的场景中也表现出色,无论训练样本比例如何变化,其分类性能始终优于其他模型。

通过消融实验进一步验证了PTN中各个组件的有效性。结果表明,PET模块在提取局部特征方面优于传统卷积方法,而基于相对注意力的Transformer模块则在整合全局信息方面表现优异。同时,PTN结合了这两者,使得模型在提取和整合信息时能够兼顾局部细节和全局上下文。这种设计在处理铁路图像时具有显著优势,特别是在捕捉复杂的空间-光谱关系方面。

为了验证PTN在不同数据规模下的效率,研究还评估了内存优化算法的效果。结果显示,当批次大小为256时,PTN在Indian Pines、Pavia University、Houston 2013和Salinas数据集上的训练速度分别提高了3.21倍、3.40倍、3.35倍和3.39倍,而内存消耗则降低了28%。尽管在增加批次大小时,模型的准确率略有下降,但这些变化在统计噪声范围内,表明该算法在保持性能的同时实现了显著的计算优化。

综上所述,本文提出的PTN模型不仅在分类精度上超越了现有的CNN和Transformer方法,还在训练效率和内存消耗方面表现出色。这使得PTN特别适合在计算资源受限的铁路监测环境中部署。未来的研究可以进一步探索PTN在不同应用场景中的泛化能力,以及如何优化其在更大规模数据集上的表现。此外,PTN的设计理念可以拓展至其他领域的高光谱图像分类任务,如农业监测、环境评估和医学诊断等,以提升这些领域中的图像分析效率和准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号