编辑推荐:
为解决 CHM 时空不一致及数据缺乏问题,相关研究人员开展美国本土 CHM 数据集构建研究。得出 22,796,764 对 CHM 和 NAIP 图像成果。此研究为大规模 CHM 生产提供数据支持,值得科研读者一读。
探索植被垂直结构的 “拼图”:构建美国本土冠层高度模型数据集
在生态和地理空间研究的大舞台上,冠层高度模型(Canopy Height Model,CHM)是一位不可或缺的 “角色”。它就像一把神奇的尺子,能精准测量出植被相对于地面的垂直高度,为我们展现出植被和人造环境的结构、布局和组织信息 。想象一下,我们站在一片广袤的森林前,CHM 能告诉我们每棵树的高度,让我们清晰地了解这片森林的垂直结构,这对于土地管理、碳循环和气候变化研究、景观监测以及灾害风险评估等诸多领域都有着重要意义。
然而,这位 “得力助手” 却存在一些 “小毛病”。由于 CHM 通常是由机载激光雷达(Light Detection and Ranging,LiDAR)仪器获取的,它的覆盖范围往往局限于局部或区域,而且只能记录某个特定时间的 “快照”。虽然星载激光雷达(如 GEDI 和 ICESat - 2)能提供更广泛、更频繁的覆盖,但地面采样距离却比较粗糙,就像用一把大网格的梳子去梳理细节,很多细微之处就被遗漏了。
为了克服这些难题,科学家们想出了各种办法。他们尝试将激光雷达衍生的 CHM 与多光谱光学或雷达图像结合起来。比如,把星载 GEDI 衍生的 CHM 与 Landsat、Sentinel - 2 或 Sentinel - 1 图像结合,在全球和区域尺度上对冠层高度进行建模估计;还有人利用机载激光雷达衍生的 CHM,与高分辨率的航空或卫星图像搭配使用。尽管这些方法取得了一定成果,但在 CHM 的发展和建模过程中,却出现了一个 “偏心” 的现象。科学家们大多把精力集中在了森林生态系统的 CHM 研究上,其他生态系统,尤其是牧场(包括草原、稀树草原和灌木丛),在 CHM 建模方面受到了冷落。可实际上,牧场是一种主要的土地覆盖类型,冠层高度测量对于牧场的众多建模研究和实际管理工作非常有价值。而且,牧场本身的植被组成复杂多样(可能有草、灌木、树木,或者什么都没有),这就需要高分辨率的 CHM 来减少不确定性,使其更适合应用。
另外,高分辨率、航空衍生的 CHM 数量稀少,这也给训练用于更广泛应用的模型带来了困难。在美国,美国地质调查局(USGS)与合作伙伴为 3D 高程计划(3DEP)收集机载激光雷达数据,这些数据虽然公开可用,但获取和处理的过程却困难重重。
面对这些问题,来自相关研究机构的科研人员决心 “拨乱反正”,填补这些研究空白。他们在《Scientific Data》期刊上发表了一篇名为《A large-scale canopy height model and aerial imagery dataset for the conterminous United States》的论文,为我们带来了新的希望和突破。他们通过一系列努力,成功构建了一个地理范围广阔但空间上分散的 CHM 数据集,为大规模 CHM 生产模型的训练提供了有力支持。
科研人员在研究过程中,运用了多种关键技术方法。在选址采样方面,他们以美国本土(CONUS)为研究区域,根据环境保护署三级生态区和国家土地覆盖数据库(NLCD;2019 年发布)的主要类别进行分层采样。考虑到牧场的特殊性,对草本和灌木地类别的采样增加了 4 倍,牧场类别增加了 2 倍,同时减少了水域类别的采样。为了确保采样点之间有合适的距离,还对 NLCD 数据进行了处理 。在数据获取上,利用 USGS 3DEP 激光雷达数据(以 EPT 格式为主)和美国农业部国家农业影像计划(NAIP)的影像。通过筛选符合条件的工作单元,获取激光雷达点数据,并进行投影转换和存储 。在 CHM 生产环节,借助 lidR R 软件包,运用特定算法,经过一系列数据处理和参数设置,生成了 1 米分辨率的 CHM。对于 NAIP 影像,从 Google Earth Engine 获取,经过筛选、拼接和裁剪,使其与 CHM 空间匹配。
下面让我们来看看这项研究的重要成果:
- 选址采样成果:科研人员根据不同的生态区和土地覆盖类别进行分层采样,充分考虑了各类土地覆盖的特点。在增加牧场相关类别采样的同时,减少水域采样,最终获得了约 3050 万个采样点。不过,由于激光雷达数据和 NAIP 影像的可用性问题,实际采样点数量有所减少。这就好比在一幅巨大的拼图上,先确定了可能的拼图块位置,但有些位置因为缺少相应的拼图块而不得不舍弃。通过这种科学的采样方法,确保了数据能够更好地代表不同的生态系统和土地覆盖类型,为后续研究奠定了坚实基础。
- 激光雷达数据处理成果:从众多激光雷达数据来源中,科研人员精心挑选了符合特定时间、质量和格式要求的工作单元数据。他们像细心的工匠一样,对数据进行筛选和预处理,排除了不符合条件的数据,还对数据进行了重投影和临时存储等操作。在这个过程中,虽然遇到了一些数据获取问题,但他们克服困难,成功为后续的 CHM 生产提供了高质量的数据支持。
- 冠层高度模型生产成果:利用 lidR R 软件包,科研人员在数据处理上可谓下足了功夫。他们排除了没有地面分类的数据点,还通过算法对噪声点进行分类和去除。在生成 CHM 时,运用 pitfree () 算法,在遇到问题时,尝试 p2r () 算法。经过这些努力,他们在整个美国本土生成了超过 2280 万个 CHM。这些 CHM 就像一幅幅精细的地图,准确地描绘出了不同区域的植被垂直结构。
- NAIP 影像检索成果:为了让 CHM 和 NAIP 影像 “携手合作”,科研人员从 Google Earth Engine 中检索 NAIP 影像。他们根据激光雷达采集日期,在前后两年的时间窗口内筛选出最匹配的影像,并进行拼接和裁剪,使其与 CHM 的空间范围一致。尽管在这个过程中,约 9 万个采样点没有找到可用的 NAIP 影像,但最终还是成功得到了 22796764 对空间匹配的 CHM 和 NAIP 影像。这些影像对就像一对对亲密的伙伴,为后续的研究提供了丰富的信息。
- 数据记录成果:这些珍贵的数据被精心整理,以 tar 文件的形式存储在特定的网址上。文件按照 UTM 区域和采样点坐标进行分层组织,方便用户查找和使用。同时,还提供了一个 CSV 文件,详细记录了每对数据的相关信息,就像一本详细的目录,让用户能够快速了解数据的 “身世”。
- 技术验证成果:通过对数据的分析,科研人员发现 CHM 和 NAIP 影像对的地理分布与采样设计和数据可用性相符,牧场确实得到了更多的采样。而且,CHM 和 NAIP 影像的采集日期分布相似,平均相差 200 天,不过存在 NAIP 影像采集时间略早的情况。在与国家生态观测站网络(NEON)生成的 CHM 对比时,通过计算误差指标和视觉检查,发现两种方法生成的 CHM 输出结果具有可比性。这就像是两个不同的画家,用不同的画笔和颜料,却画出了相似的美丽风景。
在研究结论和讨论部分,这项研究成果的重要意义更加凸显。科研人员成功构建了一个大规模的 CHM 和 NAIP 影像数据集,涵盖了美国本土多种土地覆盖类型,尤其是对以往被忽视的牧场生态系统进行了重点关注。这个数据集不仅为大规模 CHM 生产模型的训练提供了丰富的数据资源,还有助于提高在不同生态系统中对冠层高度估计的准确性,为生态和地理空间研究领域注入了新的活力。
不过,研究中也发现了一些问题。比如,部分 NAIP 影像存在部分或完全空白的情况,这可能是因为它们位于采集区域的边缘或者数据本身缺失;而且,由于 CHM 和 NAIP 影像采集时间可能存在差异,期间可能发生显著的景观变化,这会对数据的准确性产生一定影响。但这些问题并没有掩盖研究成果的光芒,反而为后续研究指明了方向。未来的研究可以针对这些问题进一步优化数据处理方法,提高数据质量,让我们对植被垂直结构的认识更加准确和深入。
这项研究就像一座灯塔,为生态和地理空间研究照亮了前行的道路。科研人员通过自己的努力,成功解决了 CHM 研究中的一些关键问题,为相关领域的发展做出了重要贡献。相信在他们的引领下,未来会有更多的科研人员加入到这个研究领域,不断完善和拓展对冠层高度模型的研究,让我们更好地了解地球的生态环境,为保护和管理我们的地球家园提供更有力的支持。