一个适用于高通量数字化学研究的公平数据基础设施
《Digital Discovery》:A FAIR research data infrastructure for high-throughput digital chemistry
【字体:
大
中
小
】
时间:2025年11月05日
来源:Digital Discovery 5.6
随着化学研究对可重复性和高通量实验需求的不断增长,构建可扩展的数字基础设施成为推动该领域发展的关键。在这一背景下,瑞士的Swiss Cat+项目提出了一种专门设计的研究数据基础设施(RDI),旨在支持自动化、可追溯性以及人工智能(AI)的可读性。该基础设施集成了自动化合成、多阶段分析以及语义建模功能,确保实验数据以结构化、机器可解释的方式记录,并构建起一个可扩展且兼容性强的数据基础。通过系统性地记录成功与失败的实验数据,该RDI不仅增强了数据的完整性,还为创建抗偏见的数据集提供了基础,这些数据集对开发稳健的AI模型至关重要。
Swiss Cat+的RDI基于Kubernetes和Argo Workflows技术,遵循FAIR(可发现性、可访问性、互操作性和可重用性)原则,将实验元数据转化为经过验证的资源描述框架(RDF)图。这些图可通过网页界面和SPARQL端点进行访问,从而便于与后续的AI和分析流程集成。RDI的关键特性包括一个模块化的RDF转换器和“Matryoshka文件”,后者将完整的实验数据(包括原始数据和元数据)封装在一个标准化的ZIP格式中,便于携带和共享。这种设计支持大规模查询,并为标准化数据共享和自主实验奠定了基础。
在化学研究领域,过去由于缺乏全面且标准化的数据,AI的应用进展缓慢。例如,许多现有数据集仅关注成功实验的结果,而忽视了失败的合成尝试,这使得AI模型难以全面学习实验的完整情境。为了弥补这一缺陷,一些研究项目如开放反应数据库(ORD)已逐步建立,以提供结构化且数字兼容的化学反应数据。然而,要实现真正的数据可重用性与互操作性,需要更系统化的数据处理流程和统一的语义框架。
Swiss Cat+的RDI旨在确保实验数据在生成、存储和检索过程中具备最高的完整性、互操作性和可重用性。通过将实验信息系统化地记录并链接到整个实验流程,RDI不仅促进了数据的重用,还为构建高质量数据集提供了支持,这对化学领域的AI模型开发至关重要。这一系统利用开源技术构建,并通过瑞士国家机构SWITCH提供的Kubernetes服务进行部署,从而实现可扩展和自动化的数据处理。每周,实验元数据被转换为语义元数据和RDF格式,并存储于语义数据库中。这些结构化的数据可以被有经验的用户通过SPARQL直接查询,也可以通过用户友好的网页界面进行访问。整个流程通过Argo Workflows实现自动化,并通过定时同步和备份工作流确保数据的可靠性与可访问性。
Swiss Cat+的实验工作流程架构主要分为两大部分:合成平台用于自动化化学反应,分析平台则配备了主要由Agilent和Bruker两家供应商提供的仪器设备。这一架构减少了不同分析技术之间的数据差异,推动了数据标准化,使得实验数据在不同平台之间更具兼容性。Agilent和Bruker的仪器在流程图中以不同的虚线风格进行区分:Agilent使用长虚线,而Bruker使用点划线。所有中间和最终数据产品均以结构化格式存储,具体包括Allotrope Simple Model-JavaScript Object Notation(ASM-JSON)、JSON或可扩展标记语言(XML)。这些格式不仅支持自动化数据集成,还确保了数据的可重复性和下游机器学习应用的可行性。
整个流程以数字方式实现,从实验的初始化到最终的数据分析。实验的初始阶段通过人机交互界面(HCI)引导自动化合成过程,随后根据信号检测、手性特征和新颖性等因素进行决策。这些决策将样品引导至不同的筛选和表征步骤,包括液相色谱(LC)、气相色谱(GC)、手性色谱(SFC)、紫外-可见光谱(UV-Vis)、傅里叶变换红外光谱(FT-IR)和核磁共振(NMR)等技术。每种仪器的输出数据均以结构化格式进行存储,并通过语义注释进行标记,以支持平台内部的下游集成与互操作性。
在实验流程中,每一步都产生结构化的数据,并通过统一的语义模型进行关联。例如,当信号被检测到时,系统会进一步判断化合物的手性(在筛选路径中)或其结构的新颖性(在表征路径中)。如果化合物被确认为无手性,则分析流程结束;否则,会通过Bravo仪器进行溶剂交换,以确保后续的手性色谱分析条件兼容。随后,样品会被送至超临界流色谱(SFC)系统进行分析,以区分对映体并确定其手性特征。对于结构新颖的化合物,会进一步通过预处理液相色谱(LCprep)进行纯化,并利用FT-IR和NMR等技术获取其结构信息。这些分析步骤产生的数据以ASM-JSON格式存储,以确保与Swiss Cat+数据基础设施的完全互操作性,并支持机器学习、结构数据库和逆合成规划工具的整合。
在数据基础设施方面,Swiss Cat+构建了一个涵盖数据提取、标准化、RDF转换和验证的完整流程。该流程通过Argo Workflows实现自动化,每周将数据从内部存储同步至S3对象存储,并转换为RDF格式。所有RDF文件均通过SHACL验证器进行验证,以确保其结构和语义符合预期标准。验证后的数据被存入QLever RDF数据库,供研究人员查询和使用。此外,系统还具备反馈机制,若验证失败,相关数据将被重新处理以确保数据的正确性。这种设计不仅提高了数据的可靠性,还增强了系统的可扩展性和稳定性。
为了实现语义互操作性,Swiss Cat+采用了基于本体论的语义框架。该框架通过将元数据映射到统一的本体论中,使得不同实验阶段的数据能够被机器理解和整合。本体论提供了一种结构化的知识表示方式,定义了概念、分类体系以及实体之间的关系,从而确保数据不仅在语法上一致,而且在语义上可互操作。这一语义模型是现代数据科学向数据驱动型研究转变的关键,使实验数据能够成为可重复、可集成和AI准备的资源。
为了追踪实验样本,Swiss Cat+引入了多层次的标识符系统。每个实验阶段的数据都通过定义明确的本体关系进行连接,例如通过“Campaign”(实验计划)、“Batch”(批次)、“Sample”(样品)、“Product”(产物)和“Peak”(峰)等实体之间的关系。这种结构化的追踪机制确保了实验数据在不同阶段之间的可追溯性,并支持对实验历史的重建。例如,一个样品可能在多个分析路径中进行处理,包括并行的光谱分析和序列化的色谱分析,而标识符系统则确保了不同分析阶段的数据能够被正确地链接和引用。
在元数据转换方面,Swiss Cat+开发了一种通用的转换软件,将原始的JSON元数据转换为符合本体论的RDF语句。该转换器采用Rust语言实现,具有高性能和内存安全的优势,确保了数据处理的稳定性与效率。通过集成Sofia库,该软件能够构建符合RDF标准的输出,并支持不同平台之间的数据整合。该转换器被设计为两个模块,一个是针对Swiss Cat+项目本身的语义映射规则,另一个是独立于项目结构的通用转换逻辑,使其具备跨领域的适应性。
为了确保数据的长期可用性和可访问性,Swiss Cat+的系统采用了一个分布式存储架构。实验数据和元数据以JSON格式定期存储在内部实验室数据库中,随后被传输至SWITCH提供的S3对象存储系统。S3作为一种高可用性和可扩展性的存储方案,能够有效地支持日益增长的数据量。所有数据在转换为RDF格式后,被存入QLever数据库,供研究人员进行查询和分析。为了进一步增强系统的鲁棒性,RDF元数据文件被存储在两个位置:一个用于查询的QLever三元组存储,另一个则与原始数据文件一同保存在S3中,以确保数据的可恢复性。
Swiss Cat+的RDI不仅具备强大的数据处理能力,还提供了一个用户友好的界面,使得不同技术背景的研究人员能够轻松访问和使用数据。该界面支持数据的浏览、过滤和下载,并允许用户通过SPARQL查询和语义搜索获取特定信息。界面还提供对实验元数据的可视化功能,使用户能够直观地理解实验流程,并根据需要导出结构化的数据文件。通过这一设计,研究人员可以无需掌握复杂的语义网络技术,也能高效地利用数据进行分析和建模。
为了应对实验数据格式的多样性,Swiss Cat+引入了“Matryoshka文件”这一概念。该文件是一个结构化的ZIP容器,用于封装整个实验流程中的元数据、处理数据和最终结果。其设计灵感来源于俄罗斯套娃,具有分层和嵌套的特性,使得不同阶段的数据能够以统一的方式进行存储和管理。通过这种方式,Matryoshka文件不仅能够整合不同格式的数据(如ASM-JSON、XML、JSON和TTL),还能够支持跨平台的数据交换和处理。此外,该文件保留了正向和负向结果,使得失败实验数据也能成为未来优化和AI训练的重要资源。
尽管Swiss Cat+的RDI取得了显著进展,但在某些数据格式的标准化方面仍面临挑战。例如,一些实验室仪器(如NMR光谱仪)生成的文件格式往往缺乏一致性,这使得自动化转换和元数据提取变得复杂。为了克服这一问题,Swiss Cat+正在开发特定的Python脚本,将这些格式转换为符合Allotrope本体论的ASM-JSON格式。这一过程涉及对自由文本字段的解析、处理不同仪器格式的不一致性,以及确保与目标结构的语义对齐。尽管当前的标准化工作仍在进行中,但通过持续的技术改进和社区协作,未来有望实现对所有实验数据类型的全面支持。
为了进一步增强系统的互操作性、可扩展性以及对AI研究的支持,Swiss Cat+计划引入多种改进措施。其中包括采用Zarr格式存储处理后的数据,以便与原始数据一起进行云分析。Zarr格式支持元数据嵌入和分块存储,能够有效处理大规模数据集。此外,系统还计划在元数据模型中引入对峰的标注,以增强数据的可重用性并支持AI应用。这些标注将有助于监督学习模型的训练,提升数据的科学价值。
Swiss Cat+的RDI还致力于开放数据共享和跨实验室协作。通过在用户界面中引入RO-Crate格式,研究人员可以方便地导出和共享完整的数据与元数据包。这一功能不仅符合FAIR原则,还增强了数据的可互操作性。未来,系统还将支持外部实验室的数据贡献,允许用户通过结构化的元数据输入、自动的RDF生成以及SHACL验证,确保数据的质量和语义一致性。这种开放性和协作性将使Swiss Cat+的RDI成为化学研究社区的重要资源。
Swiss Cat+的RDI代表了化学研究向数据驱动型科学转变的重要一步。它不仅提供了结构化、可追溯和AI友好的数据基础设施,还通过模块化设计和开源技术的应用,为其他研究领域提供了可借鉴的范例。该系统的设计理念强调数据的标准化、互操作性和可重用性,为未来大规模数据分析和AI模型开发奠定了坚实的基础。通过这一基础设施,化学研究者能够更高效地利用数据,推动科学发现的加速,并促进跨实验室的协作与创新。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号