解锁环境数据 “密码”:将多样元数据单位精准映射到 QUDT 本体,开启数据高效利用新时代

【字体: 时间:2025年02月21日 来源:Scientific Data 5.8

编辑推荐:

  为解决环境数据因单位表示多样而阻碍自动化处理的问题,相关研究人员开展将环境元数据单位映射到 QUDT 本体的研究,结果成功映射约 91% 的单位实例。推荐阅读,助您了解数据处理新突破。

  
在科学研究的大舞台上,数据就像一颗颗闪耀的星星,承载着无数的奥秘。但如果这些数据没有准确的单位,就如同星星失去了光芒,变得毫无意义。想象一下,当你看到一个数字 “5”,它可能是 5 米、5 千克,也可能是 5 秒,没有单位的界定,这个数字根本无法传递任何确切的信息。

在环境科学领域,单位的问题尤为突出。由于研究涉及到物理驱动(如气候、天气、土壤特性)、各种各样的生物及其特征(如微生物、植物、昆虫、脊椎动物)以及化学过程(如碳和氮循环),跨越了从极地到海洋、从沙漠到森林等广泛的环境和尺度,这使得所需的单位种类繁多。而且,同一个单位往往有多种不同的表示形式,就像 “千分之一”,在微生物研究中常用 “per mil”,而在其他地方 “parts per thousand” 可能更被接受,但它们本质上是等价的无量纲浓度单位。

这种单位表示的混乱状况给自动处理数字数据带来了极大的困难。不同的研究团队可能使用不同的单位表示,这使得计算机在处理这些数据时不知所措。例如,火星气候轨道器因一个规划小组使用公制单位,另一个使用英制单位,最终导致在火星大气层中烧毁;还有飞机因燃油装载单位错误,在飞行途中燃油耗尽,不得不滑翔降落。这些例子都凸显了单位统一和准确表示的重要性。

为了解决环境数据单位表示混乱的问题,研究人员踏上了探索之路。作者[第一作者单位] 的研究人员在《Nature Scientific Data》期刊上发表了题为《Mapping diverse environmental metadata units to the QUDT ontology》的论文。他们通过一系列的研究,成功地将大量环境元数据中的原始单位与 QUDT 本体(一种用于表示数量、单位、维度和类型的本体)中的单位进行了映射,这一成果意义重大,为环境数据的自动化处理和更好利用奠定了基础。

在这项研究中,研究人员采用了多种关键技术方法。首先,他们从 DataONE、环境数据倡议(EDI)和美国国家生态观测网络(NEON)这三个组织管理的环境数据中收集元数据文档中的单位描述,构建了一个单位描述语料库。接着,他们对原始单位描述进行处理,通过 86 次字符串替换创建 “伪单位”,以便将不同表示形式的相同潜在单位归为一组。之后,又使用 346 次顺序字符串替换,将伪单位转换为与 QUDT 单位类似的形式,并在 R 语言环境中进行转换和匹配操作。最后,他们创建了查找表,并基于此开发了网络服务和 R 函数,用于在生态元数据语言(EML)文档中添加注释元素。

研究人员在分析中涉及了多种类型的单位,如原始单位(即元数据提供者提供的未经整理的、临时的单位描述)、不同单位(去除重复后的原始单位)、伪单位(编辑后的不同单位,小写、无空格、符号替换)和 QUDT 单位(包含在 QUDT 本体中的单位)。下面我们来看看具体的研究结果:

  • 语料库中的单位:研究人员收集到的原始单位描述多达 355,057 个,这些数据来自 EDI(占 49.8%)、DataOne(占 45.8%)和 NEON(占 4.4%)。虽然数量庞大,但不同的单位只有 7,110 个,而且它们的使用频率差异巨大。超过 50% 的不同单位只被使用了一次,74% 的使用次数少于 3 次,而使用次数超过 15 次的单位不到 10%,超过 100 次的仅占 3%。像米、摄氏度、米每秒、百分比、数量和无量纲这六个单位,使用次数较多,约占总使用次数的 17%。此外,不同组织使用的原始单位也存在差异,三个组织共同使用的单位只有 49 个,但这些单位的使用频率很高,占总使用次数的 61%。DataONE 有很多独特的单位,未被其他两个组织使用的占 81%;EDI 也有 53% 的独特单位;而 NEON 与其他组织的单位重叠度较高,只有不到 1% 的独特单位。研究人员还发现,一些很少使用的所谓 “单位”,其实根本不是单位,可能是数值、标签、地点名称等,被误放在了元数据的单位位置。
  • 伪单位和 QUDT 单位:经过 107 次字符串替换得到伪单位后,单位数量有所减少。再经过 353 次逐步字符串转换,虽然只有不到 10% 的伪单位(占不同单位的 12.6%)能与 QUDT 单位匹配,但从原始单位在元数据中的使用情况来看,超过 90% 的单位使用都能与 QUDT 单位匹配。其中,NEON、EDI 和 DataONE 的原始单位分别有 96%、93% 和 89% 能成功映射到 QUDT 单位。同时,还有几百个不同单位(包括 72 个在原始单位中使用超过 10 次的单位)未能与 QUDT 单位匹配,这些将作为候选单位提交给 QUDT 进行审核。
  • 人工检查:24 位数据管理员对术语进行审核时,只发现了一个潜在错误,与一个 QUDT 单位名称不符合既定模式有关。此外,他们还识别出 99 个额外的潜在匹配项和 136 个需要添加到 QUDT 中的单位案例。研究人员正与 QUDT 合作进行这些添加工作,成功添加的单位最终会被加入查找表。
  • 将 QUDT 本体整合到数据集元数据中:为了让研究人员和数据管理人员更方便地使用,研究人员创建了一个查找表,包含要匹配的单位、等效的 QUDT 单位以及从 QUDT 中提取的其他信息(如标签、URI、维度向量)。基于这个查找表,他们开发了两个工具。一个是基于 REST 的网络服务,用户输入单位后,能以多种形式(html、xml、json)输出选定的 QUDT 内容;另一个是一组 R 函数,可以读取现有的 EML 元数据,生成添加注释元素的编辑版本,还能根据需要更新其他元数据。

通过这项研究,研究人员得出结论:利用有序的字符串转换,将大量现有生态元数据中的原始、临时单位与 QUDT 单位本体进行链接,比最初预期的更有效。尽管有大量很少使用的原始单位未能匹配,但研究人员仍成功将从 DataONE、EDI 和 NEON 收集的元数据中约 91% 的单位实例映射到了 QUDT 本体。查找表的创建使得开发网络服务和 R 代码来注释现有 EML 元数据成为可能,而且这种注释方法不仅适用于 EML,也可能应用于其他标准的元数据注释。

在讨论部分,研究人员指出,对于允许注释的元数据模式,使用注释将人类可读的单位与本体链接起来,是促进生态数据处理自动化的有效方式。这不仅能满足人们对单位特定表示形式的偏好,还能提供严格一致的机器可读表示。同时,本体将单位概念与其他测量概念(如数量种类和维度)联系起来,提高了数据的可发现性和互操作性,有助于推动数据集成和处理的自动化。虽然将现有单位映射到 QUDT 取得了成功,但 QUDT 的覆盖范围仍存在一些差距,研究人员正在提交建议以填补这些差距,预计能增加 1 - 2% 的覆盖范围。另外,约 7% 的单位可能永远无法与 QUDT 匹配,这些单位大多没有实际意义。研究还发现,使用顺序搜索和替换操作将原始单位转换为与 QUDT 兼容的单位代码是有效的,这得益于许多常用原始单位遵循一定的惯例。然而,研究也面临一些困难,比如单位与测量其他方面的混淆,以及 QUDT 在处理特定测量转换时的局限性。为了解决这些问题,研究人员考虑在 EML 元数据中使用多个注释来提供更多测量上下文信息,这有望构建测量字典,推动本体的发展和完善。

总的来说,这项研究为环境数据单位的规范化和有效利用提供了重要的解决方案,使得环境数据在自动化处理、发现和解释等方面有了更好的基础,对推动环境科学研究的发展具有重要意义。它就像一把钥匙,打开了环境数据高效利用的大门,让我们在探索环境奥秘的道路上迈出了坚实的一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号