编辑推荐:
为解决现有作物分类数据集在区域覆盖、类别数量等方面的局限,研究人员开展了 EuroCropsML 数据集的研究。该数据集涵盖多区域、多作物类别,通过实验得出不同训练场景下模型性能差异。其有助于评估 ML 算法,推动农业遥感发展。
在当今数字化时代,农业领域的精准监测与管理对于保障全球粮食安全至关重要。利用卫星遥感技术实现作物类型的准确分类,成为众多科研人员竞相探索的热点。然而,目前的作物分类数据集却存在诸多 “绊脚石”。许多数据集局限于单个国家的小范围区域,像 ZueriCrop 仅覆盖瑞士北部 ,Denethor 只针对德国北部,这使得它们难以反映不同气候和农业实践地区的多样性。而且,现有数据集的多类别作物标签数量较少,有的仅包含少量农业地块信息 。这些不足严重阻碍了数据驱动方法在作物分类中的有效应用,无法满足科研人员对算法性能进行全面、准确评估的需求。
为了突破这些困境,来自德国慕尼黑工业大学(Technical University of Munich)、dida Datenschmiede GmbH、瑞士苏黎世联邦理工学院(ETH Zürich)、德国 Zuse Institute 的研究人员携手合作,开展了一项具有开创性的研究 —— 构建 EuroCropsML 数据集。他们的努力取得了丰硕成果,该数据集为欧洲少样本作物类型分类的时间序列分析提供了有力支持,在农业遥感领域意义非凡。相关研究成果发表在《Scientific Data》上。
研究人员在构建 EuroCropsML 数据集时,运用了一系列关键技术方法。首先,在数据采集阶段,借助 EOLab Finder(后由 EOLab Data Explorer 替代)收集 2021 年与爱沙尼亚、拉脱维亚、葡萄牙土地表面重叠的哥白尼哨兵 - 2(Sentinel - 2)光栅数据瓦片 。接着,从数据集中提取地块,计算每个地块 13 个光谱波段的中值像素值,以此获取光学观测时间序列。在数据预处理环节,采用基于哨兵 - 2 Level - 2A 算法场景分类方法去除云层影响,保证数据质量。最后,将数据集划分为训练集和测试集,设置多种少样本学习场景,用于评估机器学习模型性能。
研究结果
- 数据集特征:EuroCropsML 数据集包含来自爱沙尼亚、拉脱维亚和葡萄牙的 706683 个多类别标记数据点,涉及 176 个作物类别 。每个数据点都有从 Sentinel - 2 L1C 数据中提取的时间序列和精确地理空间坐标,时间序列最多可达 216 个时间步。数据集中作物类别存在不平衡现象,如牧场草地类数据点占比约 45%。
- 基准测试结果:研究人员提出两种迁移学习场景,即 Latvia→Estonia(LV→EE)和 Latvia + Portugal→Estonia(LV + PT→EE) 。在这两种场景下,分别设置包含所有预训练类和仅包含与爱沙尼亚数据重叠类的预训练集,并创建七种少样本学习场景。实验结果显示,在所有设置中,基于拉脱维亚全部数据预训练的模型表现最佳 。尽管纳入葡萄牙数据相对于基线模型有所提升,但不如仅基于拉脱维亚数据预训练的效果显著。此外,当预训练类限制为与微调类重叠时,仅基于拉脱维亚数据预训练的模型性能下降;而在拉脱维亚和葡萄牙数据预训练时去除非重叠类,模型性能则有所提高。在 k∈{10, 20} 时,随机初始化的模型甚至优于基于葡萄牙数据预训练的模型。
研究结论与讨论
EuroCropsML 数据集的诞生,填补了现有作物分类数据集的多项空白。它涵盖多个地理区域,代表了不同气候带、植被和农业实践,为研究人员提供了丰富多样的数据资源。通过对该数据集的分析,研究人员发现区域邻近性和相似性在模型训练中具有重要价值,有时比单纯增加数据量更为关键。这一发现为后续作物类型分类算法的优化提供了新的思路和方向。同时,该数据集复杂的现实场景设置,使其成为评估各种机器学习算法性能的理想选择,有助于科研人员深入了解不同算法在实际应用中的优势与不足,推动农业遥感领域的技术创新和发展,进而为全球粮食安全监测与保障提供更精准、有效的技术支持 。