编辑推荐:
随着地球观测(EO)和地理空间数据量的剧增,数据处理面临挑战。研究人员开展基于 openEO 平台的联邦处理研究,提供了社区化解决方案,实现多云平台数据处理。这简化了数据管理,推动地球科学研究,对应对气候等挑战意义重大。
在地球科学研究领域,地球观测(EO)数据的重要性与日俱增。如今,EO 数据在质量、分辨率和数量上都达到了前所未有的水平,成为解决气候危机、可持续发展等重大社会挑战的关键要素。过去二十年,大量关键 EO 数据档案免费开放,像欧盟哥白尼计划不断采集并公开海量数据。但数据量的持续膨胀也带来诸多难题。
早期,许多学术和研究机构自行搭建类似云的基础设施来处理数据,然而这些设施往往是临时搭建、逐步扩充的,技术栈各不相同,导致数据分析、处理算法和工作流程的代码共享极为有限。而且,与生物信息学、高能物理学等处理大量数据的学科不同,EO 数据具有独特性,它包含分类、商业和公开数据集,由特定的传感器收集,观测的是地球在自然条件下的动态变化。与气象学和气候建模领域相比,EO 数据通过观测获取,时空分辨率更高,且不涉及预测,常需建模从观测变量中获取目标变量。
随着数据量进一步增大,很少有机构能在本地复制完整的数据档案。于是,公共云成为存储和访问 EO 数据的理想选择,一些主要的空间机构也开始将处理系统和档案迁移到公共云。但 EO 数据处理仍困难重重,例如数据以特定格式存储在众多 “瓦片”(tile)中,处理大区域或长时间序列数据时,传统的本地下载方式效率极低,云计算环境下处理数据也面临诸多复杂步骤。同时,低级云计算方式对用户技术要求高,高级云计算平台又存在数据集有限、软件扩展性差、成本管理和资源分配受限以及供应商锁定等问题,不同平台间代码难以复用,严重影响科学的可重复性。
为解决这些问题,德国明斯特大学(University of Münster)等机构的研究人员开展了关于地球观测数据联邦处理的研究,相关成果发表在《Scientific Data》。
研究人员使用的关键技术方法主要包括:借助 openEO 这一开放的应用程序编程接口(API),它能连接多种客户端与不同云后端,简化数据管理和算法复用;openEO Platform 作为基于 openEO 规范和生态系统构建的公共平台,联合多个符合 openEO 规范的云后端,实现数据联邦处理;利用 SpatioTemporal Asset Catalog(STAC)规范,便于数据在不同后端间的传输和共享 。
研究结果如下:
- openEO Platform 架构:openEO Platform 是欧洲公司和研究小组合作的成果,通过单一的 openEO API 端点整合多个云平台的能力。它的核心组件 openEO Aggregator 负责管理请求,能合并元数据列表、调度处理请求,还支持复杂处理请求的跨数据中心操作。同时,为满足用户需求,开发了 Federation Extension,提供后端信息和处理结果的相关信息。
- 跨后端处理:为实现安全高效的跨后端处理,openEO aggregator 利用 load_stac 过程,通过将过程图拆分为多个可在单个后端执行的子图,以 save_result 和 load_stac 节点替换跨后端的边,实现数据在不同后端间的安全传输和处理。子图按依赖顺序提交,后端利用 “partial” 批处理作业结果 URL 自行检查依赖并启动处理,实现分布式协调。
- 数据与处理统一:在 openEO Platform 中,对数据中心提供的数据集合、核心处理过程和文件格式等方面进行了协调统一。将多个数据中心的相似数据集合整合为一个,确定核心处理过程,统一文件格式及参数,提高了数据处理的一致性和通用性。
- 认证与授权机制:openEO Platform Aggregator 采用 OpenID Connect 方案进行认证和授权,由 EGI Check - in 作为身份提供商,支持多种身份认证方式。用户身份管理与 API 分离,保障了安全,还便于用户在多后端和其他服务中使用同一身份。
- 大规模任务处理与计费:对于大陆规模的处理任务,openEO API 的批处理作业模式可将任务拆分并分布到多个数据中心。平台采用基于信用的计费系统,通过内部 API 和网络应用程序跟踪资源使用情况,实现资源使用的统一管理和计费 。
研究结论和讨论部分指出,openEO 及其相关平台的出现,有效应对了云计算时代地球观测计算领域的碎片化问题。它让用户专注于数据处理本身,降低了云基础设施管理等方面的复杂性。openEO Platform 还在不断发展,持续整合更多数据中心,其相关标准也在逐步与其他组织和社区接轨,有望在更大的地理空间领域得到广泛应用。此外,openEO 在气象、气候建模和地球观测等领域数据整合方面具有潜力,但在与生物信息学、粒子物理学等领域的数据集整合上仍面临挑战。总体而言,这项研究为地球科学研究的数据处理提供了创新的解决方案,推动了地球科学研究的发展,对解决全球面临的环境和可持续发展问题具有重要意义。