基于Swin Transformer V2的无人机时序敏感目标检测方法STV2YOLO:提升YOLOv5在多尺度密集场景下的性能

《IEEE Access》:STV2YOLO: An improved method for Unmanned Aerial Vehicle time sensitive target detection in YOLOv5 based on SwinTransforerV2

【字体: 时间:2025年12月03日 来源:IEEE Access 3.6

编辑推荐:

  本文针对无人机航拍图像中目标尺度多变、分布密集及边缘设备计算资源受限等挑战,提出了一种改进的STV2YOLO目标检测框架。研究通过集成Swin Transformer V2的跨窗口注意力机制构建动态多尺度特征金字塔,采用深度可分离卷积和C3-Inception模块设计轻量化骨干网络,并引入动态加权WIoU损失函数优化小目标定位精度。实验结果表明,该方法在VisDrone2019数据集上达到60.5%的mAP@0.5,较基线YOLOv5提升9.2个百分点,同时保持32.5 FPS的推理速度,为无人机实时目标检测提供了高精度与高效率的平衡方案。

  
随着无人机技术的快速发展,基于航拍图像的目标检测在智慧城市管理、应急救灾、农业监测等领域展现出巨大应用价值。然而,无人机视角的动态性导致图像中目标尺度极端变化(高空微小目标与低空大目标共存),密集场景下的目标漏检(如人群聚集、车辆拥堵),以及机载计算设备的实时性需求,成为制约其实际应用的三大核心挑战。尽管注意力机制和问题特异性改进模块在医学图像分析领域已广泛应用,但在目标检测方面的研究仍显不足。
传统YOLO系列算法虽在实时检测领域取得进展,但其固定尺度预测头难以适应无人机图像的尺度变化。TPH-YOLOv5通过集成Transformer预测头将VisDrone数据集检测精度提升至58.7%,但多头注意力机制导致计算量增加28%,实时性受限。Transformer架构的演进为密集目标检测提供新范式,Swin Transformer V2通过连续窗口策略和对数间隔相对位置偏置编码,在5120×5120像素超大分辨率任务中保持稳定训练,为无人机广域图像处理开辟新路径。
为解决上述问题,研究人员在《IEEE Access》发表了题为“STV2YOLO: An improved method for Unmanned Aerial Vehicle time sensitive target detection in YOLOv5 based on SwinTransformerV2”的研究论文。该研究通过三阶段技术创新:首先利用Swin Transformer V2的级联跨窗口注意力机制构建自适应多尺度特征金字塔;其次设计基于加权WIoU的混合损失函数增强密集小目标定位敏感性;最后通过深度可分离卷积和残差感知模块的轻量化设计,在保持实时性的同时将检测精度提升至60.5% AP。
关键技术方法包括:(1)构建动态多尺度特征金字塔,通过SwinV2的分层窗口机制自适应调整窗口尺寸(4×4至16×16);(2)采用深度可分离卷积重构骨干网络,将参数量降至46.73M,计算量降至264.84 GFLOPs;(3)设计改进C3模块,融合GoogLeNet的Inception思想实现多尺度特征并行提取;(4)引入动态加权WIoU损失函数,通过非线性权重映射增强小目标梯度贡献。实验使用VisDrone2019和AiRBird-UAV数据集,以1536×1536分辨率输入,SGD优化器训练60个周期。
骨干网络架构设计
研究采用深度可分离卷积(DS_Conv)替代标准卷积,在Backbone部分堆叠多阶段C3模块,每阶段通过步长为2的卷积下采样,构建通道维度为[32,64,128,256,512]的金字塔特征层次。CSP-DS模块集成三个基于DS_Conv的残差块,采用跨阶段部分连接策略,将特征图拆分后仅处理主分支再拼接,减少约30%冗余计算。在Neck部分引入CBAM(Convolutional Block Attention Module)双注意力机制,通过通道-空间双重注意力抑制背景噪声。
基于STV2PH的改进预测头
研究比较了Transformer_Block、ST_Block、ViT_Block等注意力模块的参数和计算复杂度,最终选择参数量仅0.01M的STV2_Block。STV2PH(SwinTransformerV2 Predict Head)通过动态窗口分割模块根据特征图分辨率自适应调整窗口大小(公式1:s=max(H,W)/k×2l),采用缩放余弦注意力(公式2:Attention(Q,K,V)=Softmax(λ·QKT/‖Q‖‖K‖+B)V)替代点积注意力,缓解高分辨率下的梯度爆炸。同时通过分层残差连接(公式3:Ffuse=α·Conv1×1(FP2)+(1-α)·UpSample(FP5))融合浅层细节特征与深层语义特征。
动态加权WIoU损失函数
针对传统IoU损失函数对尺度敏感性不足的问题,提出WIoU损失函数(公式5:LWIoU=∑Ni=1βi·(1-IoUi))。动态权重βi通过公式6:βi=log(1+√(wihi))/∑log(1+√(wjhj))计算,其中wi和hi为预测框宽高。通过平方根运算压缩大目标面积优势,结合对数函数建立权重与目标尺度的负相关关系,使小目标在反向传播中获得更高梯度权重。
改进C3模块结构
将原C3模块的单分支残差结构重构为双路径并行架构:高频细节路径使用3×3深度可分离卷积捕获局部特征,全局语义路径使用5×5深度可分离卷积扩展感受野。四条分支(1×1卷积、3×3卷积、5×5卷积和全局平均池化)输出通道数均为输入通道的1/4,通过拼接操作融合后经批归一化和ReLU激活增强非线性表示。跨阶段梯度分流策略将特征图拆分为0.5C通道的主分支(含三个Bottleneck单元)和0.5C通道的辅助分支,缓解传统C3模块的梯度重复计算问题。
实验结果分析
在VisDrone2019测试集上,STV2YOLO的mAP@0.5达到60.5%,较YOLOv5(51.3%)提升9.2个百分点,召回率从0.498提升至0.590。推理速度保持在32.5 FPS(1080p输入),参数量(46.73M)和计算量(264.84 GFLOPs)均低于TPH-YOLOv5(54.12M/290.88G)。热力图显示模型注意力集中目标特征区域,如施工现场车辆检测置信度达100%,飞行鸟类追踪置信度达82%。
训练损失曲线显示,经过50个周期后训练集与验证集损失均收敛,精确度指标在初始训练阶段振荡较大,源于数据集中小目标占比较高导致的检测阈值平衡过程。混淆矩阵表明“汽车”类别检测精度达0.88,但“自行车”类别对角线值仅0.41,假阴性率达43%,存在识别挑战。
多分辨率性能测试
分辨率参数量计算量FPSGPU内存
480×48046.73M37.44G59.69378.17MB
1280×128046.73M264.84G17.17397.85MB
参数量保持稳定,但计算量随分辨率提升显著增长,帧率从480p的59.69 FPS降至1280p的17.17 FPS。表明模型在低分辨率边缘设备上具有优势,同时在高分辨率输入下保持竞争力。
消融实验验证
方法mAP50召回率
YOLOv551.3%0.498
+TPH58.7%0.559
+SwinV259.7%0.576
+WIoU60.5%0.590
Transformer预测头(TPH)通过自注意力机制增强小目标上下文信息捕获能力,使mAP50提升7.4%;SwinV2版本通过相对位置偏置和缩放余弦注意力进一步带来0.6%提升;WIoU策略贡献0.8%性能增益,其基于统计特性的锚框评估策略有效提升复杂环境下的定位精度。
实际检测效果
在AiRBird-UAV数据集(含鹰、无人机、鸬鹚等4类目标)上,STV2YOLO的mAP50达90.5%,虽略低于YOLOv11(94.1%),但帧率(32.7 FPS)更高,显示其在不同目标规模数据集上的泛化能力。模型能准确检测天空中以相似颜色伪装的鸟群,并对地面人、狗等小目标实现无误检识别。
研究结论表明,通过集成Swin Transformer V2编码器模块、深度可分离卷积、C3模块改进和WIoU损失函数,STV2YOLO在无人机航拍场景目标检测中实现精度与速度的协同优化。其动态感知能力(通过分层窗口机制减少15%参数量)、轻量化设计(较PP-YOLOE的CSPResNet降低42%计算量)和特征融合创新(遮挡目标检测精度提升4.1%)为边缘设备部署提供实用解决方案。未来工作将聚焦模型鲁棒性和可解释性评估,强化该研究方向的科学严谨性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号