
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多尺度注意力网络(MSANet):面向细粒度视觉分类的全局与局部特征协同学习新范式
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Information and Intelligence
编辑推荐:
为解决细粒度视觉分类(FGVC)中单尺度注意力机制难以同时捕捉全局特征和局部细微差异的问题,研究人员提出多尺度注意力网络(MSANet)。该研究创新性地设计多尺度注意力层(MSAL),通过交错稀疏自注意力机制定位关键区域,结合特征融合策略整合多尺度信息。实验表明MSANet在CUB-200-2011、FGVC-Aircraft和Stanford Cars数据集上分别达到89.4%、94.3%和95.5%的准确率,显著优于传统单尺度方法。该成果为弱监督条件下的细粒度分类提供了新思路,相关技术已发表于《Journal of Information and Intelligence》。
在计算机视觉领域,区分同一大类下的不同子类(如不同品种的鸟类或车型)一直是个令人头疼的难题。这种被称为细粒度视觉分类(Fine-Grained Visual Classification, FGVC)的任务,由于子类别间差异细微、姿态多变且常混杂复杂背景,使得传统分类方法往往力不从心。更棘手的是,现有基于注意力机制的方法大多只关注与特征图相同尺度的注意力区域,忽视了更小尺度的局部特征——而这些细微之处恰恰是区分相似物种的关键,比如鸟类眼睛的虹膜颜色或喙部形状的微小差异。
针对这一瓶颈问题,国内研究人员在《Journal of Information and Intelligence》发表创新成果。研究团队提出多尺度注意力网络(Multi-Scale Attention Network, MSANet),通过同时捕捉不同尺度的 discriminative regions(判别性区域),实现了对全局特征和局部细节的协同学习。该系统在三大经典数据集上表现优异,特别是在Stanford Cars数据集达到96.9%的准确率,较标准ViT模型提升3.2%,为弱监督条件下的细粒度分类树立了新标杆。
研究主要采用三项关键技术:1)多尺度注意力层(MSAL)将特征图划分为1×1、2×2、4×4、8×8等不同尺度组,通过交错稀疏自注意力机制定位关键区域;2)特征融合策略整合来自不同尺度的全局特征(Fup_feature
)和局部特征(Fmsal_i
);3)基于ResNet-50/101和Xception的对比实验框架,使用448×448输入尺寸和余弦退火学习率调度优化训练过程。
【网络架构】
MSANet继承PSPNet结构,包含特征提取、MSA模块和分类器三部分。核心创新在于MSA模块:先通过3×3卷积将通道数压缩至512得到Fnew
,再经MSAL生成四组多尺度特征Fmsal_1
-Fmsal_4
,最后与2048维的Fup_feature
拼接融合。这种设计既降低了计算成本,又通过通道升维保留了关键信息。
【多尺度注意力层】
MSAL通过设置分组数M实现多尺度特征提取:当M=1时计算全局关系矩阵Wg
捕捉整体特征;当M>1(实验最优取2/4/8)时计算局部关系矩阵Wl
聚焦细微差异。公式Wm
=Softmax(θ(Fm
)·φ(Fm
)T
)揭示了像素间相似度计算机制,其中θ(·)、φ(·)为降维变换函数。
【实验结果】
在CUB-200-2011数据集,MSANet(ResNet-101)以90.8%准确率超越CAL方法0.2%;在FGVC-Aircraft达94.5%,仅比SR-GNN低0.2%;而在Stanford Cars以96.9%创下新纪录。消融实验显示,四尺度组合(M=1/2/4/8)效果最佳,较基线提升4.6%(CUB)、3.8%(AIR)和2.5%(Cars)。
【可视化分析】
Grad-CAM热图对比揭示:传统方法(如CIN)注意力常分散在背景(如岩石)上,而MSANet能精准聚焦关键部位(如鸟眼和喙部)。这种优势源于MSAL的多尺度设计——大尺度组捕获整体形态,小尺度组提取局部纹理,通过融合实现"既见森林又见树木"的效果。
该研究开创性地将多尺度思想引入注意力机制,突破了传统单尺度方法的局限。特别值得注意的是,MSANet在保持CNN归纳偏置优势的同时,通过MSAL模块实现了类似Transformer的全局建模能力,这对计算资源有限的场景尤为重要。未来研究方向包括跨层多尺度注意力交互和动态尺度选择机制,这些突破或将进一步推动细粒度视觉分析的发展。
生物通微信公众号
知名企业招聘