用于RGB-T人群计数的多模态Mamba框架,具有线性复杂度
《Pattern Recognition》:Multi-Modal Mamba Framework for RGB-T Crowd Counting with Linear Complexity
【字体:
大
中
小
】
时间:2025年10月08日
来源:Pattern Recognition 7.6
编辑推荐:
人群计数方法通过融合RGB与热红外图像提升精度,但现有注意力机制复杂度高且存在信息损失。本文提出VMMNet网络,采用动态状态空间块(DSS)将注意力机制复杂度从O(N2)降至线性,并设计跨模态增强块(CMEB)和合并模态融合块(MMFB)以保留原始模态信息。实验表明,VMMNet在RGBT-CC等数据集上FLOPs减少94.3%,计数准确率提升18.7%-23.3%。
在现代计算机视觉领域,人群计数是一项基础且重要的任务,它不仅对智能城市的建设具有重要意义,还广泛应用于交通监控、视频安防、城市规划以及公共安全等多个方面。随着技术的发展,现有的人群计数方法主要依赖于RGB图像和热成像数据的融合,以提高计数的准确性和鲁棒性。然而,当前的多模态人群计数方法在实现高效融合的同时,仍面临两个关键问题:一是计算复杂度较高,二是信息丢失严重。
针对计算复杂度的问题,传统方法中,基于卷积神经网络(CNN)的模型虽然在参数规模和计算效率上表现良好,但由于卷积核的局限性,其在捕捉全局特征时容易产生局部简化偏差。此外,固定卷积核在面对不同质量或未见过的图像特征时,难以有效适应。而基于视觉Transformer(ViT)的方法虽然能够更好地建模全局依赖关系,但由于其自注意力机制的计算复杂度较高,导致计算成本和推理时间显著增加,限制了其在实时监控等实际应用中的部署。
对于信息丢失的问题,许多现有方法倾向于将多模态特征压缩为单一特征表示,这种做法虽然简化了模型结构,但也导致了重要信息的丢失,从而影响了模型的计数性能,特别是在处理复杂场景如密集人群或极端光照条件时,容易造成严重的漏检和低估。
为了解决上述问题,本文提出了一种基于Mamba的跨模态融合网络,命名为VMMNet。该网络通过引入高效的特征提取机制和创新的多模态融合模块,显著降低了计算复杂度,并在融合过程中保留了更多的原始模态信息,从而提升了计数的准确性和效率。具体来说,在特征提取阶段,VMMNet采用了基于选择扫描机制的动态状态空间(DSS)模块,该模块能够以线性复杂度提取来自不同模态的人群特征,有效降低了传统注意力机制所带来的高计算成本。在多模态融合阶段,本文设计了两个创新模块:跨Mamba增强模块(CMEB)和合并Mamba融合模块(MMFB)。CMEB模块通过跨选择扫描机制增强了不同模态之间的信息交互,从而提升模态间的语义相关性;MMFB模块则进一步整合CMEB模块的输出,通过未压缩的双分支结构保持特征完整性,避免了传统融合方法中因序列压缩导致的信息丢失,同时采用了线性复杂度的选择扫描机制,实现了高效的多模态信息融合。
为了进一步提升网络在通道维度上的建模能力,本文还设计了一个通道感知的Mamba解码器(CMD)。CMD模块通过引入通道感知机制,能够动态调整各个通道的权重,从而增强通道间的信息感知能力。该模块不仅优化了多尺度融合后的特征,还进一步提高了计数的准确性。
在实验部分,本文在多个常用的RGB-T人群计数数据集上进行了测试,包括RGBT-CC、DroneRGBT和ShanghaiTechRGBD等。实验结果表明,VMMNet在计算效率和推理速度方面显著优于现有的最先进方法,并在GAME(0)和RMSE等指标上分别实现了18.7%和23.3%的性能提升。这表明,VMMNet不仅在计算复杂度上得到了有效控制,还在信息保留方面取得了显著进展,从而提升了多模态人群计数的整体性能。
本文的主要贡献包括以下几个方面:首先,提出了一种新颖的端到端网络VMMNet,该网络通过级联的DSS模块有效提取来自不同模态的人群特征,将注意力机制的计算复杂度从O(N2)降低到线性水平,显著减少了计算成本;其次,设计了两个创新的模块CMEB和MMFB,通过跨选择扫描机制和未压缩的双分支结构,实现了跨模态的深度协作和互补增强,确保了信息的完整性;最后,通过在通道维度上引入通道感知机制,提升了网络的建模能力,优化了多尺度融合后的特征,进一步提高了计数的准确性。
为了更好地理解VMMNet的结构和优势,本文在第二部分详细介绍了该网络的设计和实现方法。第三部分则通过实验展示了VMMNet在不同数据集上的表现,证明了其在实际应用中的有效性。第四部分对网络的复杂度、预测值与真实值分布之间的差异以及模型在某些场景下的失败案例进行了深入讨论。第五部分回顾了相关的研究工作,为读者提供了更全面的背景信息。第六部分总结了本文的研究成果,并对未来的研究方向进行了展望。
本文的研究成果表明,VMMNet在解决多模态人群计数中的计算复杂度和信息丢失问题方面具有显著优势。通过引入基于选择扫描机制的DSS模块,VMMNet能够以线性复杂度提取来自不同模态的特征,从而降低了计算成本。同时,CMEB和MMFB模块的引入,使得多模态特征融合过程中能够有效保留原始模态的信息,避免了信息丢失的问题。CMD模块的引入则进一步提升了网络在通道维度上的建模能力,使得模型能够更好地捕捉和整合不同通道之间的信息。
此外,VMMNet在实际应用中展现出良好的性能和鲁棒性。在多个数据集上的实验结果表明,VMMNet不仅在计算效率和推理速度方面优于现有的最先进方法,还在计数准确性和密度图生成方面取得了显著提升。这表明,VMMNet不仅适用于实验室环境下的测试,还能够在实际的智能城市应用中发挥重要作用。
在方法的实现过程中,VMMNet的设计充分考虑了不同模态之间的信息交互和融合需求。通过引入跨选择扫描机制,CMEB模块能够有效增强不同模态之间的信息交互,从而提升模型的语义相关性。而MMFB模块则进一步整合CMEB模块的输出,通过未压缩的双分支结构保持特征完整性,避免了传统方法中因序列压缩导致的信息丢失。CMD模块则通过动态调整各个通道的权重,增强了通道间的信息感知能力,从而提升了模型的建模效果。
总的来说,VMMNet在解决多模态人群计数中的关键问题方面取得了显著进展。通过引入高效的特征提取机制和创新的多模态融合模块,VMMNet不仅降低了计算复杂度,还在信息保留方面做出了有效改进。这些改进使得VMMNet在实际应用中能够更高效地运行,同时保持较高的计数准确性和密度图生成质量。未来的研究可以进一步探索VMMNet在不同应用场景中的适应性,以及如何将其扩展到其他多模态任务中,从而推动计算机视觉领域的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号