
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于结构化状态空间序列模型与卷积神经网络的混合架构在实时目标检测中的应用
【字体: 大 中 小 】 时间:2025年05月22日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
本文针对边缘设备实时目标检测中高处理速度与低延迟的需求,提出了一种结合结构化状态空间序列模型(Mamba)与轻量化空间注意力机制的混合架构。研究通过嵌入Mamba模块捕获长程依赖关系,并设计高效Ghost模块降低计算开销,在MS COCO数据集上实现41.1 AP(+1.6 AP提升),水下场景DUO数据集达69.5 AP(超越YOLO11 0.3 AP),为资源受限场景提供高性能解决方案。
在智能安防、自动驾驶和海洋工程等领域,实时目标检测技术正面临严峻挑战:边缘设备的算力限制与复杂场景的检测需求形成尖锐矛盾。尽管YOLO系列通过Cross Stage Partial Network(CSPNet)等创新持续优化,但传统自注意力机制(self-attention)的二次方复杂度(quadratic complexity)使其难以部署于网络浅层,而轻量化设计往往伴随性能骤降。更棘手的是,水下等复杂场景中背景干扰会进一步降低现有模型的平均精度(Average Precision, AP)。
大连海事大学的研究团队在《Engineering Applications of Artificial Intelligence》发表的研究中,创造性地将结构化状态空间序列模型(Mamba)与卷积神经网络(CNN)融合。通过分析YOLOv1到YOLO11的演进脉络,团队发现两个关键突破点:长程依赖捕获与参数效率提升。研究采用三项核心技术:1)在骨干网络早期嵌入Mamba模块(线性复杂度),通过轻量化空间注意力补偿其方向感知缺陷;2)改进Ghost模块,利用通道混洗(channel shuffle)提升参数利用率;3)构建混合架构Hybrid-YOLO,在MS COCO和DUO数据集分别采用公开样本验证。
实验验证
在MS COCO测试中,模型以纳米级(nano scale)复杂度实现41.1 AP,较基线提升1.6 AP;水下检测场景下,DUO数据集69.5 AP的成绩超越YOLO11 0.3 AP。消融实验(ablation studies)证实:空间注意力使Mamba在Pascal VOC上的AP提升2.1%,改进版Ghost模块减少15%参数量却保持同等性能。
结论与意义
该研究首次实现Mamba在视觉任务中的高效适配,其混合架构突破传统注意力机制(如Partial Self-Attention Module)的计算瓶颈。实际价值体现在:1)为边缘设备提供AP提升1.6-0.3的解决方案;2)Ghost模块改进推动轻量化设计理论发展;3)水下检测验证拓展应用边界。团队公开的代码库(Hybrid-YOLO)已获Fundamental Research Funds for the Central Universities(3132019344)等资助支持。
生物通微信公众号
知名企业招聘