IGVF知识图谱:从基因组变异到功能解读的一站式平台
《Nucleic Acids Research》:The IGVF catalog—from genetic variation to function
【字体:
大
中
小
】
时间:2025年12月09日
来源:Nucleic Acids Research 13.1
编辑推荐:
本文推荐IGVF联盟开发的IGVF Catalog知识图谱数据库,该资源通过整合实验数据(如CRISPR筛选、MPRA)与机器学习预测,构建包含30亿节点和75亿边的关系网络,解决了基因组变异功能注释的难题,为解析非编码区变异机制提供新视角。
随着人类基因组计划的完成,科学家们发现了数百万计的存在于个体之间的基因组变异。然而,这些变异中绝大多数位于不编码蛋白质的区域,它们如何影响基因调控、进而导致疾病风险增加,至今仍是一个巨大的黑箱。传统的基因组数据库,如gnomAD、GWAS Catalog和GTEx,主要提供变异频率和表型关联的观测数据,却难以揭示其背后的因果机制。这就好比我们拥有了一张标注了无数地点的地图,却不知道这些地点之间是如何连接的,以及一条道路的改动会如何影响整个交通网络。
为了填补这一关键空白,美国国家人类基因组研究所(NHGRI)于2021年启动了“基因组变异功能影响”(IGVF)联盟。该联盟旨在系统性地揭示基因组变异、基因组功能与表型之间的因果关系,而不仅仅是关联。为了实现这一宏伟目标,IGVF数据与行政协调中心(DACC)开发并发布了IGVF Catalog——一个开源、基于图数据库的资源平台,将联盟产生的海量数据与公共数据库资源进行整合。这项研究成果已正式发表于《核酸研究》(Nucleic Acids Research)2025年的数据库专刊。
研究人员为构建该平台,主要采用了以下几项关键技术:基于ArangoDB图数据库构建知识图谱,利用其多维索引实现基因组坐标范围的高效查询;整合多源数据,包括ENCODE、GTEx、ClinVar等公共资源以及IGVF联盟特有的CRISPR基因编辑、大规模并行报告基因分析(MPRA)、饱和突变筛选等实验数据;开发了支持TRPC和HTTP协议的应用程序编程接口(API)及交互式前端界面,并引入了基于大语言模型(LLM)的检索增强生成(RAG)技术实现自然语言查询。
后端数据库设计
知识图谱
IGVF Catalog的核心是一个大规模的知识图谱。在该图谱中,节点代表生物实体或概念,边则代表这些节点之间的关系。具有基因组坐标的实体,如变异、基因、转录本和基因组元件(如增强子),是图谱的基础。其他生化实体,如蛋白质、蛋白质复合物、药物等,也被表示为节点。此外,组织、细胞、表型、疾病等概念则通过公共本体论转化为节点。边用于连接各类节点,例如,基因连接到其转录本,转录本连接到蛋白质。实验数据和预测结果也以边的形式存在,例如eQTL是连接变异与基因的边,而染色质可及性数量性状位点(caQTL)则是连接变异与基因组元件的边。这种设计将不同类型的生物学信息编织成一张互联的网络。
图数据库实现
研究团队选择了ArangoDB作为数据库实现方案。ArangoDB并非纯粹的图数据库,它同时具备对象存储和关系数据库的能力,这为系统带来了灵活性。其关键优势在于“多维索引”(MDI)功能,允许基于染色体坐标范围进行高效查询,例如快速查找与某个核苷酸变异位置重叠的基因组元件。数据通过Python脚本从各种数据源解析为JSONL格式后导入数据库。整个系统运行在四个内存优化的云计算节点集群上。
前端用户界面
统一搜索栏
Catalog的前端界面设计以用户友好为核心。其统一的搜索栏支持用户“通过任何内容进行搜索”,无论是自由文本名称还是结构化标识符。搜索系统提供实时自动补全功能,并能识别标准标识符,如rsID、基因组坐标、SPDI字符串等,直接将用户引导至相应页面。
基于表格的数据显示
为了有效呈现知识图谱中高度互联的信息,Catalog采用基于表格的视图作为显示数据的主要方式。例如,在一个变异详情页面上,与该变异相关的增强子-基因预测、GWAS关联、编码变异功能预测等信息都以表格形式展示。每行代表一个数据条目,列则捕获关键属性。表格支持按属性分组、排序和过滤等交互功能,使用户能够动态探索数据。
其他可视化组件
除了表格,Catalog还提供了一系列交互式可视化组件。在变异页面,用户可以看到显示核苷酸替换的动画编辑图、带有悬停元数据的群体等位基因频率条形图,以及用于评估同一基因组区域内变异间相关结构的连锁不平衡(LD)热图。在基因页面,则提供了功能评分分布图、可缩放基因互作网络图和通路富集树状图等。
反馈与术语表系统
Catalog内置了一个术语表(Glossary),为应用程序中使用的科学术语提供清晰的上下文定义。用户可以通过悬停工具提示查看详细信息,并可以“建议编辑”,提交的反馈经审核后可由维护人员更新,这使术语表成为一个协作平台。
API服务与信息
程序化访问Catalog数据的主要方式是通过其API。IGVF Catalog API通过内部优化的查询暴露图数据库中的数据,提供了基于HTTP(遵循OpenAPI规范)和基于tRPC(TypeScript远程协议调用)两种访问方式。此外,Catalog前端还包含一个“X射线”功能,可以暴露生成每个表格所使用的底层API调用,包括完全解析的查询URL和客户端过滤或转换的流程,确保了数据的可重复性和透明度。
与IGVF数据门户的关系
需要区分的是,IGVF数据门户(Data Portal)主要托管IGVF联盟产生的原始和处理后的数据集,围绕文件和文件集进行组织。而IGVF Catalog则是一个面向用户的分析结果集成和探索界面,它将数据门户发布的分析结果与公共注释数据整合到知识图谱中,提供查询、可视化和解读功能。
与其他类似数据库的比较
与gnomAD(变异频率)、GWAS Catalog(变异-表型关联)、GTEx(基因表达)、ClinVar(临床注释)和Open Targets(药物靶点整合)等主要提供观测性数据的资源相比,IGVF Catalog的独特之处在于它整合了IGVF联盟产生的独特实验数据集和预测模型,特别是那些旨在直接探究基因组变异因果机制的扰动实验数据。虽然MaveDB也专注于多重变异效应分析(MAVE)结果,但IGVF通过整合更广泛的实验策略(如CRISPR扰动、单细胞技术),旨在超越单变异效应,揭示塑造表型结果的调控结构和基因网络。
局限性与展望
作为一个持续发展的资源,IGVF Catalog也存在一些局限性。数据覆盖仍不完整,许多数据集仍在整合中。部分交互功能和自动补全的准确性有待优化。IGVF生成数据与公共数据的标签需要更清晰以增强可解释性。文档和用户指南也处于积极开发和修订中。DACC团队正持续增强Catalog的后端数据库和前端界面,未来将通过纳入更多数据集、优化查询和可视化性能、改进数据源标签和反馈系统来应对这些挑战。
综上所述,IGVF Catalog通过构建一个整合了实验扰动数据和计算预测模型的大规模知识图谱,为科学界提供了一个强大的平台,用于探索基因组变异对分子、细胞乃至表型水平的因果影响。其创新的图数据库架构、用户友好的交互界面和透明的数据访问方式,标志着基因组学资源从描述关联向阐释机制的重要转变,有望极大地推动我们对基因组功能和相关疾病机制的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号