YOLO-DCPG：面向密集小目标农业害虫检测的双通道池化门控注意力轻量化架构

《Frontiers in Plant Science》：YOLO-DCPG: a lightweight architecture with dual-channel pooling gated attention for intensive small-target agricultural pest detection

【字体：大中小】 时间：2025年12月11日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　本文提出了一种基于YOLOv8n的轻量化农业害虫检测模型YOLO-DCPG，通过设计双通道池化门控注意力（DCPGAttention）模块、采用轻量级骨干网络StarNet、构建高效特征融合网络Small-Neck以及引入基于Inner-IoU的WIoU损失函数，在Pest24数据集上实现了80.1%的精确度、74%的mAP@50和47.5%的mAP@50~95，同时模型参数量、计算量（GFLOPs）和体积分别降低了51.2%、30.1%和46.7%，并成功部署于树莓派4B，为边缘计算环境下的实时精准害虫监测提供了高效解决方案。

1 引言

农业害虫严重影响着全球最大农业国中国的作物生长。传统害虫识别依赖专家经验，耗时且难以应对突发性虫害。基于图像处理和特征工程的传统自动化方法（如SVM、GLCM、贝叶斯多任务学习）在简单背景和少量害虫种类上表现良好，但难以适应复杂真实农业环境。深度学习卷积神经网络（CNN）方法克服了传统方法的局限，显著提升了检测精度和鲁棒性。

当前基于CNN的目标检测算法主要分为两阶段（如R-CNN系列）和单阶段（如YOLO系列、SSD）方法。两阶段方法精度高但计算成本大，不利于实时应用和边缘部署；单阶段方法速度更快，更适合实时检测任务。针对小害虫检测，研究通过引入特征增强模块和优化损失函数（如PestLite的MTSPPF、Pest-YOLO的融合策略、FCDM-YOLOv8的动态检测头、RP-DETR的STIP结构）来提升精度，但往往模型参数量大，边缘部署困难。轻量化设计方面，研究通过结构优化和注意力机制改进YOLO系列模型（如PEW-YOLO的GSConv与PGNet、改进YOLOv10n的SPD-Conv与反向残差注意力、PDA-YOLO的PoolFormer_C3K2、DGS-YOLOv7-Tiny的全局注意力机制），在降低复杂度的同时力求保持精度。

现有研究普遍存在泛化能力差（训练背景简单、害虫种类有限）、模型效率与精度难以兼顾（注重小目标检测精度导致模型大、推理慢；轻量化方法又可能牺牲多物种检测精度）等问题。为此，本文基于YOLOv8n提出轻量化农业害虫检测模型YOLO-DCPG，旨在优化模型结构，减少参数、计算量和模型大小，同时保持高检测精度，以适应边缘设备部署。主要贡献包括：提出DCPGAttention机制；用更轻的StarNet替换骨干网络，设计结合改进a-BiFPN与GSConv的Small-Neck特征融合结构；在WIoU损失函数中引入基于Inner-IoU的比例因子以加速模型收敛和小目标回归；在树莓派4B上成功部署，实现稳定实时检测。

2 材料与方法

2.1 数据集介绍

研究使用Pest24数据集，包含25,378张图像，覆盖24类害虫。该数据集目标显著小于VOC、COCO等通用数据集，图像背景复杂、目标重叠遮挡严重，且存在严重的类别不平衡（如实例数最多53,347，最少仅108）。为解决类别不平衡，采用离线和在线数据增强。离线增强（水平/垂直翻转、随机90度旋转、亮度调整、水平/垂直平移）针对实例少的类别；在线增强采用Mosaic和Mixup，增加多样性并提升模型鲁棒性。增强后图像总数达29,680张，按7:2:1划分训练集、验证集和测试集。

2.2 YOLO-DCPG目标检测模型

YOLOv8由骨干网络、颈部网络和检测头组成。为应对YOLOv8参数量大导致的边缘部署挑战，本文在YOLOv8n基础上提出YOLO-DCPG模型，采用StarNet作为特征提取骨干。整体架构中，设计了双通道池化门控注意力机制（DCPGAttention），替换GCT的全局上下文嵌入为基于均值和标准差的双池化操作，集成于骨干网络末端以增强全局害虫信息捕获；设计了轻量级Small-Neck网络替代原颈部，结合改进双向特征金字塔网络（a-BiFPN）与高效卷积模块GSConv，实现多尺度特征有效融合；在损失函数中，将基于Inner-IoU的比例因子ratio引入WIoU以控制辅助边界框影响范围，使模型更关注小害虫区域，加速小目标回归。

2.2.1 StarNet特征提取网络

采用轻量高效的StarNet-S100作为骨干。其采用4阶段分层架构，下采样使用卷积层，每阶段引入Star Block进行特征提取。核心Star Operation是基于逐元素相乘的高效特征变换方法，以极低计算成本增强通道间建模能力；为弥补其缺乏空间感受野的不足，在每个Star Block中引入深度可分离卷积（DWConv）增强空间建模。Star Operation负责通道间交互，DWConv负责空间特征提取，二者协同实现效率与表征能力的平衡。使用批归一化（BN）替代层归一化加速训练收敛，采用轻量ReLU6激活函数增强非线性建模并减少数值不稳定性。

2.2.2 DCPGAttention模块

GCT模块包含全局上下文嵌入、通道归一化和门控适应三部分，但其L2范数特征编码限制了细粒度特征变化区分能力。SRM模块利用均值和标准差作为风格描述符，捕获更丰富的分布特征，但其重新校准机制固定且输入无关，限制了动态适应性。本文提出的DCPGAttention模块将SRM的双统计池化策略与GCT的自适应门控概念相结合，实现更全面、动态可调的全局特征建模。给定输入特征图，通过均值池化和标准差池化计算通道统计量，整合为双池化特征，再经过通道归一化（保留L2范数）和门控适应（引入可学习权重γ和偏置β）阶段，最终输出加权后的特征。该设计提供了比GCT更灵活、信息更丰富的全局上下文表示。

2.2.3 Small-Neck：轻量级特征融合网络

YOLOv8的PAN-FPN结构在多次下采样中易丢失对小害虫至关重要的浅层特征，且融合过程主要关注高层语义特征，对浅层空间细节利用不足。为此，设计基于YOLOv8颈部的增强特征融合模块a-BiFPN，引入额外的P2浅层特征层（包含更精细的空间信息），通过类似BiFPN的双向路径实现P2-P5层的融合，有效整合多级特征。考虑到Pest24数据集主要为小害虫目标，深层特征（P4、P5）贡献相对有限且引入冗余计算，进一步提出Small-Neck结构，对a-BiFPN进行简化，采用数据集特定的通道剪枝策略，将P3-P5层输出通道统一减少至256，以最小化不必要计算。同时，用更高效的GSConv模块替代标准卷积，用VoVGSCSP替代原C2f模块，提升特征重用和梯度传播。Small-Neck采用快速归一化融合方法优化特征融合权重，实现检测精度、计算复杂度和推理速度的良好平衡。

2.2.4 Inner-WIoU损失函数

YOLOv8采用CIoU损失进行边界框回归，但缺乏跨检测任务的自适应调整能力。WIoUv3损失通过构建梯度增益计算方法和合理的梯度增益分配策略，降低高质量锚框的竞争力，减轻低质量锚框产生的有害梯度，能有效关注困难样本。本文在WIoUv3基础上，引入Inner-IoU的比例因子ratio来控制辅助边界框，提出Inner-WIoU损失函数。通过ratio缩放真实框（GT）和预测框生成内部框，计算内部框的交并比（IoU），并结合WIoUv3的损失计算。当ratio<1时，辅助框尺度小于实际框，回归有效范围小于IoU损失，加速高IoU样本收敛；当ratio>1时，较大尺度辅助框扩大回归有效范围，为低IoU回归提供增益。针对Pest24小害虫居多的特点，实验发现在ratio=1.05时，模型在mAP和小害虫检测精度上达到最佳性能，此时辅助框的回归范围平衡，能更好捕获小目标特征。

3 结果

3.1 实验设置

实验环境为PyTorch 1.11.0框架。训练批量大小32，epoch数200，初始学习率0.01，权重衰减0.0005，动量0.937，使用SGD优化器。采用余弦退火学习率调度器和早停机制（50轮无显著改善则停止）以优化训练过程。

3.2 评估指标

采用精确度（Precision）、召回率（Recall）、平均精度均值（mAP）作为主要检测性能指标。同时报告参数量（Parameters）、十亿浮点运算次数（GFLOPs）和帧率（FPS）以衡量模型复杂度和实时性。mAP@0.5为IoU阈值0.5时的mAP；mAP@0.5:0.95为IoU阈值0.5至0.95（步长0.05）的平均mAP，评估更严格全面。

3.3 结果与分析

3.3.1 YOLO-DCPG算法的训练与验证

训练损失曲线显示，YOLO-DCPG相比基线YOLOv8n收敛更快，损失曲线更早稳定且波动更小，表明训练稳定性更好，泛化能力更强。mAP@50随训练轮次快速上升后逐渐平缓，约160轮后趋于最优，结合损失曲线验证了改进的整体有效性。

3.3.2 与先进方法比较

与YOLOv3-tiny、YOLOv5n、YOLOv6n、YOLOv8n、YOLOv10n、YOLOv11n、YOLOv12n、NanoDet-Plus-m-1.5x以及RT-DETR系列等模型相比，YOLO-DCPG在模型大小（3.2 MB）和计算成本（5.7 GFLOPs）上最为高效。虽然YOLOv3-tiny的mAP@50略高0.5%，但YOLO-DCPG以约1/5的资源消耗实现了可比检测性能，且精确度（80.1%）更高。相较于YOLOv5n和YOLOv12n，YOLO-DCPG检测性能更优（mAP@50分别提升1.5%和2.5%）。相较于NanoDet-Plus-m-1.5x，mAP@50提升6.7%，mAP@50:0.95提升7.3%，推理速度98 FPS稍低但整体效率更优。相较于Transformer-based的RT-DETR模型，YOLO-DCPG在轻量化设计上优势明显（参数量、GFLOPs、模型大小均约为RT-DETR-n的1/10），推理速度（98 FPS）远高于RT-DETR-n（34.1 FPS）和RT-DETR-resnet18（48.3 FPS），更适用于边缘部署。与基线YOLOv8n相比，精确度、mAP@50、mAP@50:0.95分别提升4.6%、0.8%、0.9%，而模型大小、GFLOPs、参数量分别降低46.7%、30.1%、51.2%。

3.3.3 消融实验

消融实验评估StarNet-S100、Small-Neck、DCPGAttention、Inner-WIoU各组件性能。单独使用StarNet-S100骨干在参数量上有优势，但mAP略有下降。添加DCPGAttention模块后，精确度、mAP@50、mAP@50:0.95分别提升2.9%、1.8%、2.1%。使用Small-Neck替代原颈部，参数量降低37.7%，GFLOPs降低19.5%，同时各项检测指标均有提升。引入Inner-WIoU损失函数优化了小目标回归。组合StarNet-S100和Small-Neck，参数量和GFLOPs显著降低，精度略有提升。进一步添加DCPGAttention和Inner-WIoU形成完整YOLO-DCPG模型，在不显著增加计算前提下，精确度提升2.0%，mAP@50提升0.3%，验证了各组件改进的有效性和协同性。

3.3.4 不同轻量骨干网络比较

比较StarNet-S50、S100、S150、MobileNetv4-small、FasterNet-t0等骨干。FasterNet-t0精度最高但计算量和参数量大，推理慢，不利于边缘部署。MobileNetv4-small精度低且计算复杂。StarNet-S50参数最少、速度最快但精度下降明显。StarNet-S150精度与S100相近但计算量更大。StarNet-S100在性能与效率间取得最佳平衡，计算量（6.9 GFLOPs）和参数量（2.39M）低，精度高，推理速度达106.4 FPS。

3.3.5 注意力模块比较

比较GCT、SRM、SE、ECA和DCPGAttention注意力机制。所有模块均能提升检测性能，但不同程度增加GFLOPs和参数。SE召回率和FPS最佳，但mAP略低于DCPGAttention。GCT和SRM在精确度和召回率有优势，但整体mAP较低。ECA推理速度与DCPGAttention相近，但mAP仍较低。DCPGAttention取得了最佳的mAP性能（mAP@50 75.0%，mAP@50:0.95 48.7%），表明双通道池化与门控机制结合能有效捕获全局特征，提升检测性能，同时保持与其他模块可比的参数、计算成本和推理速度（114.9 FPS）。

注意力热图可视化显示，DCPGAttention相比GCT（注意力区域大但分散、漏检）和SRM（注意力更集中但仍有限），注意力更集中、全面，能有效捕获目标主体和边缘。

3.3.6 Small-Neck与通道剪枝

比较原YOLOv8n颈部、a-BiFPN、a-BiFPN+GSConv/VoVGSCSP、Small-Neck（通道剪枝至256）。引入a-BiFPN后，检测精确度提升至80.0%，mAP@50达74.4%，几乎不影响推理速度。集成GSConv和VoVGSCSP进一步降低计算和参数，精度稳定，但推理速度略有下降。针对Pest24小害虫特点，剪枝P4、P5通道数形成Small-Neck，虽精度略有下降，但参数量和计算量显著降低，FPS提升至108.7，极大提升了边缘设备部署效率。

3.3.7 不同IoU损失函数比较

比较CIoU、SIoU、DIoU、WIoU v1/v2/v3、Inner-WIoU（ratio=0.7及经实验优化的ratio=1.05）。WIoU v3实现了最佳的mAP@50性能。引入ratio因子后，当ratio=0.7时精确度最高但召回率显著下降。经实验确定ratio=1.05时，mAP@50提升最佳，且在精确度、召回率、mAP@50:0.95间取得更好平衡，训练监督更稳定有效。

3.3.8 模型预测可视化

在不同害虫密度样本上可视化比较RT-DETR-resnet18、YOLOv3-tiny、YOLOv11n、YOLOv8n和YOLO-DCPG的检测结果。害虫较少时多数模型表现良好；随密度增加，性能差异显现。YOLOv11n在高密度场景漏检严重；YOLOv3-tiny和YOLOv8n在检测小害虫或密集簇时存在漏检和框重叠。YOLO-DCPG在保持高检测精度的同时，显著降低了参数和计算成本，即使在高密度、多目标场景下也表现出更强的鲁棒性和泛化能力。

3.3.9 在其他数据集上的泛化性评估

在RP11水稻害虫数据集上评估YOLO-DCPG的泛化能力。YOLO-DCPG达到90.3%的精确度、87.8%的mAP@50、82.8%的mAP@75和71.3%的mAP@50:0.95，相比YOLOv8n分别提升1.1%、2.4%、3.6%和1.1%。同时，GFLOPs从8.2降至5.7，参数量从3.02M降至1.47M，证实了模型的有效性和广泛适用性。可视化结果进一步展示了其优越的检测性能。

3.4 边缘部署与可视化结果

3.4.1 边缘设备部署

基于树莓派4B平台构建边缘计算设备，集成海康威视相机、4G模块、稳压电路和3D打印外壳。训练时采用轻量骨干StarNet-S100，设计Small-Neck与通道剪枝以降低模型复杂度和参数量。部署时将模型转换为ONNX格式，使用ONNX Runtime推理引擎（针对ARM架构优化，支持多线程），在树莓派4B上实现12.4 FPS的实时推理速度，确保在边缘设备上高效稳定运行。

3.4.2 边缘计算设备推理结果可视化

在树莓派4B上比较YOLOv3-tiny、YOLOv5n、YOLOv11n、YOLOv8n和YOLO-DCPG的ONNX模型推理速度与检测性能。简单样本上各模型表现良好；随害虫数量增加，YOLO-DCPG检测到102个害虫样本，而YOLOv5n和YOLOv8n仅检测到94个，存在明显漏检。YOLOv3-tiny和YOLOv11n结果相近但仍未识别全部目标。推理速度方面，YOLO-DCPG达13.4 FPS，高于其他对比模型。其ONNX模型大小仅5.5 MB，为所有对比模型中最小。YOLO-DCPG在树莓派上提供了可比的推理速度和更高的检测精度，满足了农业应用对实时性和准确性的双重需求。

4 讨论

为平衡高精度害虫检测与边缘部署效率，本文提出的YOLO-DCPG模型通过DCPGAttention模块、StarNet-S100骨干、Small-Neck结构和Inner-WIoU损失函数，在Pest24数据集上实现了高精度检测，同时显著降低了模型复杂度、参数量和体积，并成功部署于树莓派4B，为资源受限环境下的农业害虫实时监测提供了高效实用方案。

当前模型在目标密度高、遮挡严重的复杂场景仍存在漏检和误检；数据集覆盖范围有限，未能完全代表真实田间害虫多样性。未来工作将持续收集真实场景图像，扩展数据集并进行增量标注训练；将模型迁移至Jetson Nano等高性能边缘设备，进一步提升系统响应速度和实时性，更好地满足实际农业害虫监测需求。

热点排行

新闻专题