
-
生物通官微
陪你抓住生命科技
跳动的脉搏
轻量化空间位置通道注意力模块SLCAM:提升图像分类精度的跨维度交互新方法
【字体: 大 中 小 】 时间:2025年05月13日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决传统注意力机制忽视空间、位置与通道信息跨维度交互的问题,研究人员提出轻量化空间位置通道注意力模块(SLCAM)。该模块通过四分支结构聚合水平、垂直空间及通道方向的注意力权重,实现特征图的自适应调整。实验表明,基于SLCAM改进的ResNet18、ResNet50和MobileNetV2在ImageNet-1K和Stanford-Cars数据集上最高提升分类精度5.78%,且计算开销几乎无增加。这一成果为计算机视觉任务提供了高效精准的注意力机制新方案。
在计算机视觉领域,注意力机制通过模仿人类视觉系统的选择性感知特性,已成为提升模型性能的关键技术。然而,现有方法如SENet、CBAM等仅聚焦单一维度的特征优化,难以捕捉空间位置与通道间的跨维度依赖关系,导致长程依赖建模不足和计算资源浪费。这一瓶颈制约了复杂场景下图像分类精度的进一步提升。
针对上述问题,中国研究人员提出轻量化空间位置通道注意力模块(Spatial Location Channel Attention Module, SLCAM)。该创新性设计通过四分支并行结构,同步计算特征图的水平、垂直空间及通道注意力权重,首次实现三维信息的协同优化。相关成果发表于《Expert Systems with Applications》,为跨维度注意力机制研究开辟了新路径。
研究团队采用多分支特征聚合技术,在ImageNet-1K和Stanford-Cars数据集上验证性能。通过改进ResNet18/50和MobileNetV2主干网络,结合梯度加权类激活图(Grad-CAM)可视化分析,系统评估模块有效性。
Related work
现有注意力机制可分为通道注意力和空间注意力两类。SENet通过全局平均池化压缩通道特征,CBAM则串联空间与通道注意力。但这些方法存在维度割裂问题,CA模块虽引入位置编码,仍未能实现真正的跨维度交互。
Spatial Location Channel Attention Module
SLCAM创新性设计四分支结构:水平空间分支采用1×H卷积核捕获行向关系,垂直空间分支使用W×1卷积提取列向特征,通道分支通过1×1卷积建模通道相关性,最后通过特征融合层生成三维注意力权重。数学表达为F∈RC×H×W→Yn,实现端到端的跨维度特征优化。
Experiment
在ImageNet-1K测试中,SLCAM-ResNet50的Top-1准确率达78.62%,较基线提升2.52%。Stanford-Cars细粒度分类任务中,改进模型取得83.41%准确率,绝对提升5.78%。计算成本分析显示,SLCAM仅增加0.03%参数量,FLOPs增长可忽略不计。
Summary
该研究突破传统注意力机制的维度局限,提出的SLCAM模块具有三大优势:1) 通过轻量化设计实现空间-位置-通道的联合优化;2) 即插即用特性使其可嵌入各类CNN架构;3) 在几乎不增加计算负担的前提下显著提升分类精度。这项工作为计算机视觉中的特征优化提供了新范式,特别适用于计算资源受限的移动端应用场景。
研究团队通过详实的消融实验验证了各分支的贡献度,发现水平与垂直空间分支的协同作用对细粒度分类提升尤为显著。未来可将该模块扩展至目标检测、语义分割等任务,进一步探索跨维度注意力机制的通用性。
生物通微信公众号
知名企业招聘