YOLO-DCPG:面向密集小目标农业害虫检测的双通道池化门控注意力轻量化架构
《Frontiers in Plant Science》:YOLO-DCPG: a lightweight architecture with dual-channel pooling gated attention for intensive small-target agricultural pest detection
【字体:
大
中
小
】
时间:2025年12月11日
来源:Frontiers in Plant Science 4.8
编辑推荐:
本文提出了一种基于YOLOv8n的轻量化农业害虫检测模型YOLO-DCPG,通过设计双通道池化门控注意力(DCPGAttention)模块、采用轻量级骨干网络StarNet、构建高效特征融合网络Small-Neck以及引入基于Inner-IoU的WIoU损失函数,在Pest24数据集上实现了80.1%的精确度、74%的mAP@50和47.5%的mAP@50~95,同时模型参数量、计算量(GFLOPs)和体积分别降低了51.2%、30.1%和46.7%,并成功部署于树莓派4B,为边缘计算环境下的实时精准害虫监测提供了高效解决方案。
农业害虫严重影响着全球最大农业国中国的作物生长。传统害虫识别依赖专家经验,耗时且难以应对突发性虫害。基于图像处理和特征工程的传统自动化方法(如SVM、GLCM、贝叶斯多任务学习)在简单背景和少量害虫种类上表现良好,但难以适应复杂真实农业环境。深度学习卷积神经网络(CNN)方法克服了传统方法的局限,显著提升了检测精度和鲁棒性。
当前基于CNN的目标检测算法主要分为两阶段(如R-CNN系列)和单阶段(如YOLO系列、SSD)方法。两阶段方法精度高但计算成本大,不利于实时应用和边缘部署;单阶段方法速度更快,更适合实时检测任务。针对小害虫检测,研究通过引入特征增强模块和优化损失函数(如PestLite的MTSPPF、Pest-YOLO的融合策略、FCDM-YOLOv8的动态检测头、RP-DETR的STIP结构)来提升精度,但往往模型参数量大,边缘部署困难。轻量化设计方面,研究通过结构优化和注意力机制改进YOLO系列模型(如PEW-YOLO的GSConv与PGNet、改进YOLOv10n的SPD-Conv与反向残差注意力、PDA-YOLO的PoolFormer_C3K2、DGS-YOLOv7-Tiny的全局注意力机制),在降低复杂度的同时力求保持精度。
现有研究普遍存在泛化能力差(训练背景简单、害虫种类有限)、模型效率与精度难以兼顾(注重小目标检测精度导致模型大、推理慢;轻量化方法又可能牺牲多物种检测精度)等问题。为此,本文基于YOLOv8n提出轻量化农业害虫检测模型YOLO-DCPG,旨在优化模型结构,减少参数、计算量和模型大小,同时保持高检测精度,以适应边缘设备部署。主要贡献包括:提出DCPGAttention机制;用更轻的StarNet替换骨干网络,设计结合改进a-BiFPN与GSConv的Small-Neck特征融合结构;在WIoU损失函数中引入基于Inner-IoU的比例因子以加速模型收敛和小目标回归;在树莓派4B上成功部署,实现稳定实时检测。
研究使用Pest24数据集,包含25,378张图像,覆盖24类害虫。该数据集目标显著小于VOC、COCO等通用数据集,图像背景复杂、目标重叠遮挡严重,且存在严重的类别不平衡(如实例数最多53,347,最少仅108)。为解决类别不平衡,采用离线和在线数据增强。离线增强(水平/垂直翻转、随机90度旋转、亮度调整、水平/垂直平移)针对实例少的类别;在线增强采用Mosaic和Mixup,增加多样性并提升模型鲁棒性。增强后图像总数达29,680张,按7:2:1划分训练集、验证集和测试集。
YOLOv8由骨干网络、颈部网络和检测头组成。为应对YOLOv8参数量大导致的边缘部署挑战,本文在YOLOv8n基础上提出YOLO-DCPG模型,采用StarNet作为特征提取骨干。整体架构中,设计了双通道池化门控注意力机制(DCPGAttention),替换GCT的全局上下文嵌入为基于均值和标准差的双池化操作,集成于骨干网络末端以增强全局害虫信息捕获;设计了轻量级Small-Neck网络替代原颈部,结合改进双向特征金字塔网络(a-BiFPN)与高效卷积模块GSConv,实现多尺度特征有效融合;在损失函数中,将基于Inner-IoU的比例因子ratio引入WIoU以控制辅助边界框影响范围,使模型更关注小害虫区域,加速小目标回归。
采用轻量高效的StarNet-S100作为骨干。其采用4阶段分层架构,下采样使用卷积层,每阶段引入Star Block进行特征提取。核心Star Operation是基于逐元素相乘的高效特征变换方法,以极低计算成本增强通道间建模能力;为弥补其缺乏空间感受野的不足,在每个Star Block中引入深度可分离卷积(DWConv)增强空间建模。Star Operation负责通道间交互,DWConv负责空间特征提取,二者协同实现效率与表征能力的平衡。使用批归一化(BN)替代层归一化加速训练收敛,采用轻量ReLU6激活函数增强非线性建模并减少数值不稳定性。
GCT模块包含全局上下文嵌入、通道归一化和门控适应三部分,但其L2范数特征编码限制了细粒度特征变化区分能力。SRM模块利用均值和标准差作为风格描述符,捕获更丰富的分布特征,但其重新校准机制固定且输入无关,限制了动态适应性。本文提出的DCPGAttention模块将SRM的双统计池化策略与GCT的自适应门控概念相结合,实现更全面、动态可调的全局特征建模。给定输入特征图,通过均值池化和标准差池化计算通道统计量,整合为双池化特征,再经过通道归一化(保留L2范数)和门控适应(引入可学习权重γ和偏置β)阶段,最终输出加权后的特征。该设计提供了比GCT更灵活、信息更丰富的全局上下文表示。
2.2.3 Small-Neck:轻量级特征融合网络
YOLOv8的PAN-FPN结构在多次下采样中易丢失对小害虫至关重要的浅层特征,且融合过程主要关注高层语义特征,对浅层空间细节利用不足。为此,设计基于YOLOv8颈部的增强特征融合模块a-BiFPN,引入额外的P2浅层特征层(包含更精细的空间信息),通过类似BiFPN的双向路径实现P2-P5层的融合,有效整合多级特征。考虑到Pest24数据集主要为小害虫目标,深层特征(P4、P5)贡献相对有限且引入冗余计算,进一步提出Small-Neck结构,对a-BiFPN进行简化,采用数据集特定的通道剪枝策略,将P3-P5层输出通道统一减少至256,以最小化不必要计算。同时,用更高效的GSConv模块替代标准卷积,用VoVGSCSP替代原C2f模块,提升特征重用和梯度传播。Small-Neck采用快速归一化融合方法优化特征融合权重,实现检测精度、计算复杂度和推理速度的良好平衡。
YOLOv8采用CIoU损失进行边界框回归,但缺乏跨检测任务的自适应调整能力。WIoUv3损失通过构建梯度增益计算方法和合理的梯度增益分配策略,降低高质量锚框的竞争力,减轻低质量锚框产生的有害梯度,能有效关注困难样本。本文在WIoUv3基础上,引入Inner-IoU的比例因子ratio来控制辅助边界框,提出Inner-WIoU损失函数。通过ratio缩放真实框(GT)和预测框生成内部框,计算内部框的交并比(IoU),并结合WIoUv3的损失计算。当ratio<1时,辅助框尺度小于实际框,回归有效范围小于IoU损失,加速高IoU样本收敛;当ratio>1时,较大尺度辅助框扩大回归有效范围,为低IoU回归提供增益。针对Pest24小害虫居多的特点,实验发现在ratio=1.05时,模型在mAP和小害虫检测精度上达到最佳性能,此时辅助框的回归范围平衡,能更好捕获小目标特征。
实验环境为PyTorch 1.11.0框架。训练批量大小32,epoch数200,初始学习率0.01,权重衰减0.0005,动量0.937,使用SGD优化器。采用余弦退火学习率调度器和早停机制(50轮无显著改善则停止)以优化训练过程。
采用精确度(Precision)、召回率(Recall)、平均精度均值(mAP)作为主要检测性能指标。同时报告参数量(Parameters)、十亿浮点运算次数(GFLOPs)和帧率(FPS)以衡量模型复杂度和实时性。mAP@0.5为IoU阈值0.5时的mAP;mAP@0.5:0.95为IoU阈值0.5至0.95(步长0.05)的平均mAP,评估更严格全面。
训练损失曲线显示,YOLO-DCPG相比基线YOLOv8n收敛更快,损失曲线更早稳定且波动更小,表明训练稳定性更好,泛化能力更强。mAP@50随训练轮次快速上升后逐渐平缓,约160轮后趋于最优,结合损失曲线验证了改进的整体有效性。
与YOLOv3-tiny、YOLOv5n、YOLOv6n、YOLOv8n、YOLOv10n、YOLOv11n、YOLOv12n、NanoDet-Plus-m-1.5x以及RT-DETR系列等模型相比,YOLO-DCPG在模型大小(3.2 MB)和计算成本(5.7 GFLOPs)上最为高效。虽然YOLOv3-tiny的mAP@50略高0.5%,但YOLO-DCPG以约1/5的资源消耗实现了可比检测性能,且精确度(80.1%)更高。相较于YOLOv5n和YOLOv12n,YOLO-DCPG检测性能更优(mAP@50分别提升1.5%和2.5%)。相较于NanoDet-Plus-m-1.5x,mAP@50提升6.7%,mAP@50:0.95提升7.3%,推理速度98 FPS稍低但整体效率更优。相较于Transformer-based的RT-DETR模型,YOLO-DCPG在轻量化设计上优势明显(参数量、GFLOPs、模型大小均约为RT-DETR-n的1/10),推理速度(98 FPS)远高于RT-DETR-n(34.1 FPS)和RT-DETR-resnet18(48.3 FPS),更适用于边缘部署。与基线YOLOv8n相比,精确度、mAP@50、mAP@50:0.95分别提升4.6%、0.8%、0.9%,而模型大小、GFLOPs、参数量分别降低46.7%、30.1%、51.2%。
消融实验评估StarNet-S100、Small-Neck、DCPGAttention、Inner-WIoU各组件性能。单独使用StarNet-S100骨干在参数量上有优势,但mAP略有下降。添加DCPGAttention模块后,精确度、mAP@50、mAP@50:0.95分别提升2.9%、1.8%、2.1%。使用Small-Neck替代原颈部,参数量降低37.7%,GFLOPs降低19.5%,同时各项检测指标均有提升。引入Inner-WIoU损失函数优化了小目标回归。组合StarNet-S100和Small-Neck,参数量和GFLOPs显著降低,精度略有提升。进一步添加DCPGAttention和Inner-WIoU形成完整YOLO-DCPG模型,在不显著增加计算前提下,精确度提升2.0%,mAP@50提升0.3%,验证了各组件改进的有效性和协同性。
比较StarNet-S50、S100、S150、MobileNetv4-small、FasterNet-t0等骨干。FasterNet-t0精度最高但计算量和参数量大,推理慢,不利于边缘部署。MobileNetv4-small精度低且计算复杂。StarNet-S50参数最少、速度最快但精度下降明显。StarNet-S150精度与S100相近但计算量更大。StarNet-S100在性能与效率间取得最佳平衡,计算量(6.9 GFLOPs)和参数量(2.39M)低,精度高,推理速度达106.4 FPS。
比较GCT、SRM、SE、ECA和DCPGAttention注意力机制。所有模块均能提升检测性能,但不同程度增加GFLOPs和参数。SE召回率和FPS最佳,但mAP略低于DCPGAttention。GCT和SRM在精确度和召回率有优势,但整体mAP较低。ECA推理速度与DCPGAttention相近,但mAP仍较低。DCPGAttention取得了最佳的mAP性能(mAP@50 75.0%,mAP@50:0.95 48.7%),表明双通道池化与门控机制结合能有效捕获全局特征,提升检测性能,同时保持与其他模块可比的参数、计算成本和推理速度(114.9 FPS)。
注意力热图可视化显示,DCPGAttention相比GCT(注意力区域大但分散、漏检)和SRM(注意力更集中但仍有限),注意力更集中、全面,能有效捕获目标主体和边缘。
比较原YOLOv8n颈部、a-BiFPN、a-BiFPN+GSConv/VoVGSCSP、Small-Neck(通道剪枝至256)。引入a-BiFPN后,检测精确度提升至80.0%,mAP@50达74.4%,几乎不影响推理速度。集成GSConv和VoVGSCSP进一步降低计算和参数,精度稳定,但推理速度略有下降。针对Pest24小害虫特点,剪枝P4、P5通道数形成Small-Neck,虽精度略有下降,但参数量和计算量显著降低,FPS提升至108.7,极大提升了边缘设备部署效率。
比较CIoU、SIoU、DIoU、WIoU v1/v2/v3、Inner-WIoU(ratio=0.7及经实验优化的ratio=1.05)。WIoU v3实现了最佳的mAP@50性能。引入ratio因子后,当ratio=0.7时精确度最高但召回率显著下降。经实验确定ratio=1.05时,mAP@50提升最佳,且在精确度、召回率、mAP@50:0.95间取得更好平衡,训练监督更稳定有效。
在不同害虫密度样本上可视化比较RT-DETR-resnet18、YOLOv3-tiny、YOLOv11n、YOLOv8n和YOLO-DCPG的检测结果。害虫较少时多数模型表现良好;随密度增加,性能差异显现。YOLOv11n在高密度场景漏检严重;YOLOv3-tiny和YOLOv8n在检测小害虫或密集簇时存在漏检和框重叠。YOLO-DCPG在保持高检测精度的同时,显著降低了参数和计算成本,即使在高密度、多目标场景下也表现出更强的鲁棒性和泛化能力。
在RP11水稻害虫数据集上评估YOLO-DCPG的泛化能力。YOLO-DCPG达到90.3%的精确度、87.8%的mAP@50、82.8%的mAP@75和71.3%的mAP@50:0.95,相比YOLOv8n分别提升1.1%、2.4%、3.6%和1.1%。同时,GFLOPs从8.2降至5.7,参数量从3.02M降至1.47M,证实了模型的有效性和广泛适用性。可视化结果进一步展示了其优越的检测性能。
基于树莓派4B平台构建边缘计算设备,集成海康威视相机、4G模块、稳压电路和3D打印外壳。训练时采用轻量骨干StarNet-S100,设计Small-Neck与通道剪枝以降低模型复杂度和参数量。部署时将模型转换为ONNX格式,使用ONNX Runtime推理引擎(针对ARM架构优化,支持多线程),在树莓派4B上实现12.4 FPS的实时推理速度,确保在边缘设备上高效稳定运行。
在树莓派4B上比较YOLOv3-tiny、YOLOv5n、YOLOv11n、YOLOv8n和YOLO-DCPG的ONNX模型推理速度与检测性能。简单样本上各模型表现良好;随害虫数量增加,YOLO-DCPG检测到102个害虫样本,而YOLOv5n和YOLOv8n仅检测到94个,存在明显漏检。YOLOv3-tiny和YOLOv11n结果相近但仍未识别全部目标。推理速度方面,YOLO-DCPG达13.4 FPS,高于其他对比模型。其ONNX模型大小仅5.5 MB,为所有对比模型中最小。YOLO-DCPG在树莓派上提供了可比的推理速度和更高的检测精度,满足了农业应用对实时性和准确性的双重需求。
为平衡高精度害虫检测与边缘部署效率,本文提出的YOLO-DCPG模型通过DCPGAttention模块、StarNet-S100骨干、Small-Neck结构和Inner-WIoU损失函数,在Pest24数据集上实现了高精度检测,同时显著降低了模型复杂度、参数量和体积,并成功部署于树莓派4B,为资源受限环境下的农业害虫实时监测提供了高效实用方案。
当前模型在目标密度高、遮挡严重的复杂场景仍存在漏检和误检;数据集覆盖范围有限,未能完全代表真实田间害虫多样性。未来工作将持续收集真实场景图像,扩展数据集并进行增量标注训练;将模型迁移至Jetson Nano等高性能边缘设备,进一步提升系统响应速度和实时性,更好地满足实际农业害虫监测需求。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号