编辑推荐:
为解决电子表格录入实验元数据时难以遵循标准的问题,斯坦福大学研究人员开展相关研究。他们在 HuBMAP 项目中应用新方法,保障元数据符合标准。该研究成果对提升生命科学数据管理意义重大,强烈推荐科研读者阅读。
在科学研究的长河中,数据的有效管理与共享愈发关键,而元数据(Metadata,提供有关数据的描述性信息)作为其中的重要一环,其质量直接影响着科研成果的传播与应用。来自斯坦福大学(Stanford University)的 Martin J. O’Connor、Josef Hardi 等研究人员在《Scientific Data》期刊上发表了题为 “Ensuring Adherence to Standards in Experiment-Related Metadata Entered Via Spreadsheets” 的论文。这篇论文聚焦于如何确保通过电子表格输入的实验相关元数据符合标准,对生命科学领域的研究数据管理有着重要意义,为提升数据的可发现性(Findable)、可访问性(Accessible)、互操作性(Interoperable)和可重用性(Reusable),即 FAIR 原则,提供了创新的解决方案。
论文摘要指出,科学家们深知提供丰富、符合标准的元数据来描述实验结果的重要性。尽管有复杂工具辅助数据注释,但研究人员仍倾向使用电子表格来提供元数据,即便其在确保元数据一致性和符合正式规范方面存在局限。本文介绍了一种端到端的方法,支持基于电子表格的元数据输入,同时确保严格遵守基于社区的元数据标准并进行质量控制。该方法运用了可定制模板(代表元数据标准并为研究人员提供元数据创作信息)、受控术语和本体(用于定义元数据值)以及交互式网络工具(帮助用户快速识别和修复基于电子表格的元数据中的错误),并在 HuBMAP(Human BioMolecular Atlas Program,人类生物分子图谱计划)这一生物医学联盟中得以应用。
随着科学研究的不断深入,数据量呈爆发式增长,元数据的管理面临着前所未有的挑战。准确、全面且符合社区标准的元数据是实现数据 FAIR 原则的关键,许多科学社区制定了标准化报告指南,如微阵列实验的最低信息标准(Minimal Information About a Microarray Experiment,MIAME),规定了特定领域和实验所需元数据的结构。然而,研究人员在编写符合这些指南的元数据时却困难重重。电子表格虽然是研究人员常用的数据输入工具,但它在强制遵守社区标准方面表现欠佳,容易出现必填字段缺失、拼写错误、格式错误或值不符合预定义集等问题。尽管电子表格有一些有限的验证功能,但无法确保用户严格遵守规范,这导致元数据质量参差不齐,数据管理成本增加,严重影响了数据的 FAIR 性。因此,开发一种既能让研究人员使用熟悉的电子表格,又能确保元数据高质量、符合标准的工具迫在眉睫。
本研究基于 HuBMAP 的实际需求,对现有的元数据管理系统 CEDAR Workbench 进行了扩展。HuBMAP 旨在绘制健康人体单细胞分辨率的多尺度空间图谱,研究人员需要管理大量生物检测的元数据和数据,并确保其符合标准且具备 FAIR 性。
研究人员首先将 HuBMAP 的元数据报告指南转化为 CEDAR 模板。HuBMAP 的策展人利用 CEDAR 的模板设计器,协作开发了新的元数据规范,将现有指南转化为机器可执行的模板,并扩大了受控术语的使用范围,提高了元数据的质量。接着,开发了从 CEDAR 模板直接生成电子表格的机制。这些电子表格的列对应元数据字段,通过约束列值来符合源模板的规范,同时嵌入了值集和本体术语,以限制用户输入的范围。为了确保通过电子表格获取的元数据符合源模板规范,研究人员开发了一个交互式网络应用程序。该程序采用多种策略,通过向导式界面报告元数据错误并帮助用户修复,包括完整性错误(如识别缺失的必填值)和依从性错误(如识别不符合元数据规范的值)。此外,还开发了一个 REST 服务,为元数据验证和修复提供功能支持,HuBMAP 的摄入过程也使用该服务来验证上传的所有元数据。
在项目过程中,所有现有的 HuBMAP 元数据报告指南都被基于 CEDAR 模板的机器可执行元数据规范所取代。研究人员为现有的检测元数据报告指南开发了一系列基于 CEDAR 的检测规范,并生成了相应的 Excel 格式规范和人类可读的表示形式,这些规范发布在 HuBMAP 网站上,供元数据提交者下载使用。提交者填写电子表格后,可使用网络验证工具进行验证,再将元数据和相关原始数据文件提交到 HuBMAP 的数据协调中心。HuBMAP 的提交系统会再次验证元数据,若验证失败,会向提交者返回详细的错误报告。截至 2024 年 7 月,已有 34 个基于 CEDAR 编码的 HuBMAP 元数据标准投入使用,还有一些新的指南正在开发中。基于 CEDAR 的验证不仅支持了下游数据集的摄入、处理和发布,还为数据提交者提供了学习元数据最佳实践的机会。例如,HuBMAP 的中央数据策展人在数据提交办公时间使用网络验证工具进行教学,帮助提交者在正式提交前检查元数据。这使得数据提交者更加积极主动地参与元数据验证,简化了元数据修复工作流程,提高了元数据记录创建的效率和规范性。
本研究利用 CEDAR 技术为 HuBMAP 项目提供了元数据规范、采集、验证和修复的完整功能,创建了高质量的元数据模板,实现了从规范到电子表格的自动转换,并通过网络服务确保元数据符合质量标准,为元数据管理提供了强大的端到端解决方案。然而,FAIR 原则在实际操作中面临诸多挑战,其定义的主观性使得研究人员难以确定如何成功实施。社区制定的元数据标准也存在不足,如对单个元数据字段值的规定不够精确。CEDAR 旨在通过开发详细的、机器可读的模板来解决这些问题,这些模板代表了社区标准,为数据管理提供了规范。本研究的方法具有通用性,不仅适用于 HuBMAP 项目,还可推广到其他需要与现有数据存储库互操作的元数据采集场景。例如,CEDAR 模板已用于与 Dryad、Open Science Framework 和 HEAL 等数据存储库的互操作,Cellular Senescence Network(SenNet)项目也采用了类似的工作流程。这表明该方法能够满足不同科研社区的元数据管理需求,促进数据的共享和重用,推动科学研究的发展。未来,研究人员计划进一步改进工具,解决当前电子表格表示和验证不支持多值字段的问题,探索元数据丰富化的方法,并对 HuBMAP 部署期间收集的元数据质量进行全面评估,以不断提升元数据管理的水平,更好地服务于科学研究。