编辑推荐:
为解决水与健康领域数据的难题,意大利国家研究委员会认知科学与技术研究所的研究人员开展 WHOW-KG 研究。结果显示其能有效关联多领域数据。该研究成果对相关科研、决策意义重大,强烈推荐阅读。
水健康开放知识图谱:构建、评估与应用
在当今全球可持续发展的大背景下,水资源与健康资源的管理至关重要。意大利国家研究委员会认知科学与技术研究所(Institute of Cognitive Sciences and Technologies, CNR)的 Anna Sofia Lippolis、Giorgia Lodi、Andrea Giovanni Nuzzolese 等研究人员,在《Scientific Data》期刊上发表了题为 “The Water Health Open Knowledge Article Graph” 的论文。这篇论文聚焦于水与健康领域,所提出的水健康开放知识图谱(Water Health Open Knowledge Graph,WHOW-KG)对该领域的研究、政策制定以及实际应用意义非凡。它为解决水与健康相关问题提供了全新的思路和有力的工具,有助于推动全球可持续发展目标中清洁水和卫生设施目标的实现。
研究背景:数据困境与知识图谱的曙光
全球可持续发展面临诸多挑战,联合国可持续发展目标将清洁水和卫生设施列为重点关注领域。在这样的大环境下,高质量、开放的数据成为解决水资源与健康管理问题的关键。然而,水和健康领域的数据现状却不容乐观。这些数据不仅在格式和语义上存在着严重的异质性,而且在很大程度上无法满足 FAIR 原则(旨在评估数据的可发现性、可访问性、互操作性和可重用性)。
一些研究表明,(开放)数据常常难以被发现、访问和实现互操作。由于缺乏明确的数据或软件质量指南,以及信任度和内容互操作性方面的问题,再加上许可框架的不清晰,导致许多数据集的许可情况不明,直接阻碍了数据的重用。为了打破这一困境,只有少数本体建模工作尝试在 FAIR 框架内整合这些碎片化的知识,而本文介绍的 WHOW-KG 便是其中的重要成果之一,它旨在将水消费、质量与健康参数(如传染病发病率)等数据进行关联,为后续研究和应用奠定基础。
研究方法:多管齐下构建知识图谱
确定用例
研究人员针对 WHOW 项目,与领域专家和数据提供者合作,确定了三个核心用例。采用自上而下和自下而上相结合的方法:自上而下是从欧盟和意大利在水和健康领域的立法及政策要求出发;自下而上则通过共同创建计划,让利益相关者和用户从项目初期就参与进来,收集需求。最终确定的用例包括:海洋水中的污染物(UC1),旨在对人类接触海洋水中化学和生物污染物、食用受污染鱼类产品以及空气传播暴露等情况进行本体建模和创建关联开放数据;人类消费用水质量(UC2),聚焦于生成用于建模和表示地表水、地下水以及饮用水质量参数和数值的本体和关联开放数据;气象极端事件(UC3),主要对气象现象、水文循环变化和农业产业相关的本体和关联开放数据进行建模。
选择数据集
通过 WHOW 项目组织的共同创建计划,77 位参与者积极贡献,确定了相关的开放核心数据集。研究人员从这些数据集中,依据与用例的相关性、数据集的开放许可以及 2018 - 2021 年(部分数据时间跨度更长,从 1999 - 2023 年)的数据可用性这三个标准,筛选出高优先级数据集,用于设计和生成 WHOW-KG。这些数据集来源广泛,涵盖了多个领域的数据,为知识图谱提供了丰富的数据支撑。
本体建模
在构建 WHOW-KG 的本体和关联开放数据部分时,研究人员受到 Carriero 等人定义的方法启发,采用极端设计(eXtreme Design,XD)进行本体建模。XD 强调在迭代和增量过程中重用本体设计模式(Ontology Design Patterns,ODPs),它是一种协作式方法,能够促进知识工程师、领域专家等不同角色的合作,确保全面捕捉和满足建模需求。
在本体设计过程中,首先进行需求收集,将需求转化为能力问题(Competency Questions,CQs),CQs 不仅驱动本体建模,还可转化为正式查询来评估知识图谱的有效性。接着进行测试设计,将 CQs 转换为 SPARQL 查询并执行单元测试。本体模块开发采用模块化方式,生成一组网络化本体,每个本体模块都尽量减少与其他模块的耦合,增强内部凝聚力。在重用外部本体和 ODPs 时,对于广泛采用的词汇表,如 SKOS、意大利国家语义资产目录中的时间本体等,采用直接重用的方式;对于其他模式,为了支持与相关本体的互操作性,则采用间接重用的方式,通过对齐公理实现。
关联开放数据生成
本体网络建模完成后,下一步是从选定的输入数据源收集关联开放数据来填充知识图谱。通过声明性映射(即映射开发活动),使用 RDF 映射语言(RML)定义一组映射规则,RML 是对 W3C 标准化映射语言 R2RML 的扩展,可将任何类型的结构化数据源映射到 RDF。所有定义的 RML 映射规则都在 Zenodo 上以 CC-BY-4.0 许可发布,并在 GitHub 上进行版本维护。使用 pyRML(一个在 WHOW 项目中设计和实现的轻量级 Python 引擎)处理这些映射,然后使用从 CQs 导出的 SPARQL 查询对数据进行验证,并且单元测试是在真实数据上进行的。数据生成活动以分散和分布式的方式执行,不同的数据提供者可独立使用自己的数据和 RML 映射规则。
研究结果:知识图谱的构建与应用验证
本体网络
WHOW 本体网络由 8 个本体模块组成,为在 WHOW-KG 中进行数据建模、表示、交换和交互提供了共享语言。这 8 个模块分别从不同角度对水与健康领域的数据进行规范和定义,形成了一个有机的整体。
水文学模块
水文学(Hydrography)模块遵循欧洲水政策指令 2000/60/EC,对水文进行通用分类。其顶级类为 hydro:WaterFeature,是 ISPRA 本体 ispra-emf:FeatureOfInterest 的子类,进一步细分出 hydro:WaterBasin、hydro:WaterBody 等子类,hydro:WaterBody 又具体分为 hydro:TransitionalWaterBody、hydro:MarineWaterBody 等多种类型,并且重用了 PartOf ODP 来表达水域之间的部分关系。
水监测模块
水监测(Water Monitoring)模块用于表示与水质相关的观测数据。根据项目数据提供者提供的数据以及相关标准和指令,对水质观测的要求进行定义。该模块中的 w-mon:WaterObservation 类进一步细分为 w-mon:DrinkingWaterObservation、w-mon:SurfaceOrGroundWaterObservation 等子类,并且遵循 Stimulus-Sensor-Observation Ontology Design Pattern(SSO ODP)和 ISO 19156:2011 的标本模型。
水指标模块
水指标(Water Indicator)模块重用了 OntoPiA 中定义的 Indicator 本体设计模式,用于计算水质指标。其中的指标可以是沐浴水质量等级或湖泊化学状态指标等。
天气监测模块
天气监测(Weather Monitoring)模块关注与天气相关的观测,包括 wh-mon:WeatherObservation、wh-mon:WeatherFeatureOfInterest 等类,重用 ISPRA 本体网络对观测和相关属性进行建模,以满足对极端事件监测和预测的需求。
健康监测模块
健康监测(Health Monitoring)模块重用 OntoPiA 指标本体,重点表示来自区域医疗机构的健康指标,如药物分配率、医院就诊率等。根据指标类型定义了不同的 hm:HealthcareIndicatorCalculation,还通过 hm:ClinicalCohort 类指定相关人群,并可对监管特定区域的健康机构进行建模。
关联开放数据
研究人员从 ISPRA 和 ARIA 两个数据提供者处生成了关联开放数据,分别生成了相应的数据集。这些数据集的所有权和维护工作由数据提供者负责,符合 WHOW 项目分散和分布式的范式。新的数据提供者也可以按照 WHOW 本体网络的规范,发布符合要求的关联开放数据,进一步扩展知识图谱。
ISPRA 和 ARIA 分别确定了各自的参考命名空间用于生成 RDF 资源,并提供了 SPARQL 端点用于查询数据,部分数据还可在 Zenodo 上下载。此外,从 ARIA 提供的数据中生成了三个受控词汇表,分别用于定义化学物质、疾病和水指标的术语,这些词汇表也可通过 SPARQL 查询,并且与外部词汇表和数据集进行了链接,增强了数据的关联性和可扩展性。目前,WHOW-KG 在 ISPRA 生成的链接数据集中有 152,246,711 个三元组,在 ARIA 生成的链接数据集中有 113,190,050 个三元组,在受控词汇表中有 16,350 个三元组,总计 265,453,111 个 RDF 三元组。
用法示例
WHOW-KG 能够回答涵盖三个用例的各种问题。比如在查询人类消费用水体中记录的污染物时,对于 “随着时间的推移,恩迪内湖(Lake Endine)观测到的活性硅酸盐浓度是多少?” 这样的问题,可以通过特定的 SPARQL 查询在 ARIA 的 SPARQL 端点获取相关数据。执行查询后,得到的结果以 RDF 图的形式呈现,展示了观测数据与相关实体(如湖泊、观测结果、时间等)之间的关系。
再如,针对海洋水体中生物制剂的观测问题,如 “亚得里亚海(Adriatic sea)随时间记录的生物制剂及其相关浓度是多少?”,同样可以通过转换为 SPARQL 查询在 ISPRA 的端点进行查询,结果图展示了相关观测数据与生物制剂、海洋水体、时间等信息的关联。此外,还可以将水质观测数据与同一地理区域疾病相关的医院住院平均率数据进行关联查询,为研究水与健康之间的关系提供了有力支持。
评估
本体网络评估
在评估本体网络时,研究人员从图中心性度量和术语覆盖范围两个方面进行。在概念中心性评估中,通过度中心性、特征向量中心性和中介中心性这几个常见的评估指标,对知识图谱中节点的相关性进行评估。结果发现,具有最高度中心性值的节点来自各个本体模块,但与水相关的概念居多,如 w-mon:WaterObservation;特征向量中心性方面,w-mon:WaterObservation 同样具有最大影响力,这证明了水监测模块在关联 WHOW-KG 中概念的核心地位;中介中心性较高的节点,如 w-mon:WaterObservablePropertyObjectType,在网络中起到了重要的桥梁作用。
在术语覆盖范围评估中,研究人员将 WHOW 本体网络与其他相关本体进行比较。通过不同的术语提取方法(包括两种 RAKE 算法和三种大语言模型),以水政策指令 2000/60/EC 为参考,结果表明 WHOW 本体网络在与水监测相关的本体(如 DOCE 和 SAREF4WATR)比较中,展现出更广泛的术语覆盖范围;与通用环境本体 ENVO 相比,虽然在某些测量方法下 ENVO 的术语覆盖略好,但在使用 GPT 进行评估时,WHOW 的术语覆盖超过了 ENVO,这体现了 WHOW 本体网络在特定用例下的优势。
关联开放数据评估
在评估关联开放数据时,研究人员依据 FAIR 数据成熟度模型和其他数据质量标准进行。选择模型中与评估 WHOW 项目使用的数据集原始质量和确保项目活动建立的质量标准相关的特定指标,结合 ISO/IEC 25012 和 25024 标准中的元素,构建数据质量框架。通过 Validation Manager 进行评估,数据目录经过意大利国家数据目录和欧洲数据目录的层层筛选和元数据质量评估(Metadata Quality Assessment,MQA)。结果显示,ISPRA 和 ARIA 提供的所有数据集及其 RDF 分布在 MQA 评分中都获得了优秀的评级,分别为 400 和 390。
此外,研究人员还将 WHOW-KG 的查询结果与 Wikidata 和 ChatGPT 进行比较。选择了四个能力问题转换为查询在 ARIA 的 SPARQL 端点执行,结果表明 WHOW-KG 在所有情况下都能提供比其他信息源更丰富、详细和相关的结果,充分体现了其在信息丰富度和实用性方面的优势。
研究结论与讨论:知识图谱的价值与展望
研究结论
WHOW-KG 成功地将水质观测与健康参数(如传染病发病率)相关联,在多个方面展现出有效性。本体网络在术语覆盖方面表现出色,例如使用 GPT 评估时,术语覆盖率达到 69.93%,显著优于其他一些本体。在回答特定查询时,与 Wikidata 和 ChatGPT 等知识源相比,WHOW-KG 能够提供更详细、更相关的结果,这得益于其丰富的数据和合理的本体设计,充分证明了它在水与健康领域的实用价值。同时,WHOW-KG 具有分布式、开放性、多语言性的特点,并且遵循 FAIR 原则,这些特性使得它成为一个极具潜力的知识图谱资源,为相关领域的研究、决策和实践提供了有力支持。
讨论
影响
WHOW-KG 与联合国可持续发展目标(SDG)中的第 6 个目标 —— 清洁水和卫生设施紧密相关。欧洲议会的相关决议以及世界银行的观点都强调了开放数据在实现 SDGs 中的重要性。WHOW-KG 包含了由数据提供者和项目共同创造者根据三个用例及其立法基础确定的详细主题指标,在 77 位来自不同欧盟国家人员的积极参与下构建而成,对水质量和卫生领域的决策者、从业者和数据提供者具有重要意义,有助于推动相关领域朝着可持续发展目标前进。
局限性
尽管 WHOW-KG 具有很大的潜力和有效性,但仍存在一些需要改进的地方。首先,其有效性依赖于底层数据源的可用性和质量,如果数据源存在问题,将会影响知识图谱的准确性和实用性。其次,虽然在多语言支持方面取得了一定进展,但要实现对所有欧洲语言的全面覆盖仍面临挑战。再者,在评估中使用大语言模型虽然具有前景,但需要进一步验证其准确性和性能的一致性。最后,当前的评估指标虽然较为全面,但可以进一步扩展,纳入更多来自终端用户的定性评估,以便更好地了解 WHOW-KG 的实际效用和用户满意度。
未来计划
研究人员计划对 WHOW-KG 进行持续改进和扩展。首先,从本体网络定义的 OWL 限制出发,确定 SHACL 形状,以支持整个验证阶段,确保知识图谱的数据质量。其次,为了吸引更广泛的开发者,将基于本体网络定义的语义定义 REST API,降低使用门槛,促进知识图谱的应用和二次开发。再者,利用 eTranslation 等服务为数据集和本体提供更多语言支持,提高知识图谱在欧洲范围内的可理解性和可访问性。在本体网络开发方面,继续探索基于人工智能的知识工程方法,例如基于大语言模型从能力问题生成本体草案,进一步提升知识图谱的构建和优化效率。
总的来说,水健康开放知识图谱(WHOW-KG)作为水与健康领域的创新性成果,为解决相关问题提供了强大的工具和丰富的数据资源。尽管目前存在一些局限性,但随着研究的深入和技术的发展,它有望在未来发挥更大的作用,为全球可持续发展目标中清洁水和卫生设施目标的实现贡献重要力量。