基于并行浅层多子网架构的实时目标检测模型SMS-Det:硬件资源优化与性能突破

【字体: 时间:2025年05月26日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决DNN硬件加速器中资源利用率低、层间同步延迟高的问题,中国科学技术大学团队提出创新性单阶段目标检测框架SMS-Det。该模型采用并行浅层子网架构,通过特征融合层(FFL)实现多尺度信息交互,结合轻量化模块RCB和知识蒸馏技术MSP-KD,在MS COCO数据集上实现42.6% mAP,推理速度达156 FPS,较YOLOv5-S提升51.4%。研究为实时视觉系统提供了硬件友好的高效解决方案。

  

在自动驾驶和安防监控等领域,实时目标检测技术正面临严峻挑战。尽管基于深度神经网络(DNN)的算法如YOLO系列和Faster R-CNN已取得显著进展,但现有模型在硬件加速器(如GPU/TPU)部署时暴露出两大痛点:一是串行计算模式导致硬件资源利用率不足,二是深层网络结构引发昂贵的层间同步延迟。这些问题严重制约了实时系统的响应速度与能效比,成为制约行业发展的技术瓶颈。

中国科学技术大学的研究团队在《Engineering Applications of Artificial Intelligence》发表的研究中,提出革命性的Shallow Multi-Subnet Detector(SMS-Det)框架。该研究通过三大技术创新实现突破:1) 采用三并行浅层子网架构降低网络深度,将同步延迟减少42%;2) 设计轻量化可重参数卷积块(RCB),通过结构重参数化技术将推理时的双点卷积合并为单层;3) 开发多尺度投影知识蒸馏(MSP-KD),利用通道注意力机制强化特征映射。关键技术还包括快速下采样模块(FDM)生成三尺度特征图,以及特征融合层(FFL)实现跨子网信息交互。

研究结果部分显示:在MS COCO测试中,SMS-Det以19.4 GFLOPs计算量和1100万参数实现42.6% mAP,显著超越YOLOv5-S(37.4%)。速度方面达到156 FPS,较对比模型提升51.4%。消融实验证实三子网架构在延迟与精度间取得最佳平衡,FFL使小目标检测APS提升3.2%。知识蒸馏策略进一步将模型压缩率提高28%,同时保持98%的教师模型性能。

结论部分强调,SMS-Det通过硬件感知的架构设计,首次实现同步延迟降低与资源利用率提升的双重优化。其并行计算特性使TPU利用率达91%,较传统模型提高35个百分点。该研究不仅为边缘计算设备提供了可行的部署方案,其多尺度特征融合机制更为复杂场景下的目标检测开辟了新思路。团队指出,未来工作将探索动态子网数量调节机制,以适配不同计算平台的资源约束。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号