基于视觉Mamba多尺度特征融合的弱监督人群计数模型VMamba-Crowd研究

【字体: 时间:2025年08月31日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  【编辑推荐】本文首次将视觉Mamba(VMamba)引入弱监督人群计数领域,提出VMamba-Crowd模型。通过相邻尺度渐进桥接模块(APBM)和混合回归桥接模块(MRBM),有效融合多尺度特征(含通道/空间维度),在ShanghaiTech和UCF-QNRF数据集上超越多数弱监督方法,其线性计算复杂度(SS2D/VSS块)和全局注意力机制为密集人群分析提供新范式。

  

Highlight

本文亮点在于:

  1. 1.

    首次将视觉Mamba(VMamba)应用于弱监督人群计数任务,构建VMamba-Crowd框架;

  2. 2.

    创新性设计相邻尺度渐进桥接模块(APBM),通过坐标注意力与卷积合成(CACS)实现跨通道/空间的多级特征交互;

  3. 3.

    混合回归桥接模块(MRBM)采用二次混合回归策略整合全局特征,在保持线性计算复杂度(O(n))的同时显著提升计数精度。

Fully-supervised crowd counting

全监督人群计数领域目前以密度图方法为主导。针对视角变化导致的头部尺度差异,MCNN[8]采用多尺度卷积核提取特征,而CLTR[11]通过KMO匈牙利匹配器优化点集预测。Gramformer[12]则利用图注意力机制解决Transformer中的注意力同质化问题。

VMamba-crowd framework

如图2所示,输入图像I∈RC×H×W经视觉状态空间(VSS)块处理后生成五尺度特征图(原网络为四尺度)。通过APBM模块的渐进式特征桥接,将高层语义信息(如人群分布模式)与低层细节特征(如头部边缘)动态融合,而MRBM模块则通过双重回归策略增强全局上下文建模能力。

Experimental settings

数据集:采用ShanghaiTech(A/B部分)和UCF-QNRF数据集,后者包含49-12,865人的超高密度场景;实施细节:使用Swin Transformer预训练权重,批量大小设为8,采用AdamW优化器(初始学习率1e-4)。

Conclusion

本研究证实视觉Mamba在弱监督人群计数中的卓越性能,其选择性状态空间机制(SSM)能高效捕捉多尺度特征。APBM与MRBM模块的协同作用使模型在跨数据集测试中MAE降低12.7%,为公共卫生管理(如地铁客流监控)提供高泛化性解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号