AgriVision:面向密集蓝莓作物真实场景的机器人视觉基准数据集的构建与验证

《Scientific Data》:AgriVision: A Benchmark Dataset for Advancing Real-World Robotic Vision in Densely Fruited Blueberry Crop

【字体: 时间:2025年12月18日 来源:Scientific Data 6.9

编辑推荐:

  本文针对密集果实作物(如蓝莓)管理中的机器人视觉技术因果实结构不规则、簇重叠、光照多变及背景杂乱等复杂现实条件所面临的挑战,介绍了AgriVision这一大规模数据集。该数据集包含DB-1(1195张全标注图像)、DB-2(14.1万视频帧)和DB-3(1万合成图像)三个子集,支持监督、弱监督及无监督学习。研究人员提出定制化分割框架PVT-SN+SAM-RN,在DB-1上达到75.06% SEN、56.85% IoU和72.49% DICE,显著优于基线模型。该研究为精准农业中的果实检测、产量估计及模型泛化提供了重要数据基础和方法支撑。

  
在精准农业快速发展的今天,利用机器人视觉技术实现作物产量估计、成熟度分析和病害检测已成为提升农业生产效率的关键。然而,在密集果实作物(如蓝berry)的实际管理过程中,由于果实形态不规则、簇间重叠严重、果实大小不一、光照条件不稳定以及背景杂乱等因素,现有的视觉系统仍难以实现高精度的果实识别与分割。这些现实挑战进一步因缺乏来自生产环境的多样化、高质量标注数据而加剧,制约了鲁棒检测模型的训练与应用。
为了填补这一空白,来自Khalifa大学等机构的研究团队在《Scientific Data》上发表了题为“AgriVision: A Benchmark Dataset for Advancing Real-World Robotic Vision in Densely Fruited Blueberry Crop”的研究论文。该研究引入了一个面向密集蓝莓分析的大规模数据集资源库,包含三个子集,分别服务于监督学习、弱监督/半监督学习以及无监督学习与域适应等多种学习范式,并提出了针对密集簇果实的定制化分割框架,显著提升了在复杂农业环境中的分割性能。
本研究采用的关键技术方法主要包括:1)在阿联酋Silal商业温室的真实生产环境中,使用多款智能手机采集高分辨率图像和视频数据,并通过严格的多阶段人工标注协议构建高质量基准数据集DB-1;2)提出一种训练自由的合成数据生成算法,通过多尺度变换、随机布局和自适应融合技术,模拟真实世界的遮挡、重叠等复杂性,生成带有精准掩码的合成数据集DB-3;3)构建了一个结合金字塔视觉Transformer分割网络(PVT-SN)和Segment Anything模型优化网络(SAM-RN)的定制框架,其中PVT-SN利用Transformer架构捕捉全局上下文和局部细节,SAM-RN则基于PVT-SN的输出提供边界框提示进行零样本优化,最后通过后融合策略整合两者结果,以应对密集簇果实的独特挑战。
数据记录
研究团队构建了三个数据集:DB-1包含1195张高质量手动标注图像,作为监督学习的基准;DB-2包含来自520个视频的141,453帧,采用半自动标注,标签存在噪声,适用于弱监督和半监督学习;DB-3包含10,000张算法生成的合成图像及其对应掩码,模拟了真实世界的复杂性,为无监督学习和域适应提供了成本低廉且可扩展的资源。所有数据均按规范目录结构组织并公开于Figshare仓库。
技术验证
为验证数据集的有效性,研究者在DB-1上进行了严格的基准测试。他们将数据集按70:10:20的比例划分为训练集、验证集和测试集,并进行了三阶段消融实验。
模型开发
研究人员开发了一个包含两个核心网络的领域特定分割框架:金字塔视觉Transformer分割网络(PVT-SN)和Segment Anything模型优化网络(SAM-RN)。PVT-SN基于Transformer架构,能够提取分层特征并进行金字塔池化,以捕获全局上下文和局部细节,生成初始分割掩码。SAM-RN则基于Segment Anything Model(SAM),利用PVT-SN输出的边界框提示对初始掩码进行零样本优化,旨在提高边界精度并恢复在杂乱或被遮挡区域漏检的果实。最后,通过后融合阶段将PVT-SN和SAM-RN的预测结果进行合并,确保在保持特异性的同时实现高灵敏度。
结果
消融研究结果表明,从基线Vision Transformer分割网络(VT-SN)开始,增加金字塔池化模块形成PVT-SN后,DICE系数从66.75%提升至71.00%,IoU从50.09%提升至55.03%,灵敏度(SEN)从60.19%显著提升至69.74%,表明其检测密集果实簇的能力增强。进一步集成SAM-RN形成最终框架(PVT-SN+SAM-RN)后,性能达到最佳:SEN为75.06%,IoU为56.85%,DICE为72.49%。与最强基线相比,SEN、IoU和DICE分别相对提升了24.71%、13.5%和8.6%。尽管特异性(SPE)和精确度(PRE)略有下降,但该框架在最小化漏检(假阴性)方面表现出色,这对于果实产量估算至关重要。统计检验证实了改进的显著性(p<0.01)。
视觉对比结果清晰展示了模型的渐进式改进:VT-SN存在果实边界不完整和漏检问题;PVT-SN通过多尺度特征提升了覆盖范围和边界清晰度;最终的PVT-SN+SAM-RN框架则能有效恢复被遮挡果实,并进一步提高了灵敏度。
综上所述,这项研究通过构建一个大规模、多模态的蓝莓果实分割数据集AgriVision,并提出一个高效的定制化分割框架,为解决密集作物分割在真实农业环境中面临的挑战提供了重要的数据和算法基础。DB-1作为高质量的监督学习基准,其有效性得到了验证;而DB-2和DB-3则为弱监督、半监督、无监督学习及域适应等前沿研究方向开辟了新的途径。该研究不仅显著推进了蓝莓作物机器人视觉技术的发展,其数据集生成框架和方法也有潜力扩展至其他类似密集簇果实(如葡萄、草莓等)的分析中,对推动精准农业的智能化发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号