国家基因组科学数据中心2026年度资源更新:多组学大数据与人工智能驱动的生物信息学新范式
《Nucleic Acids Research》:Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2026
【字体:
大
中
小
】
时间:2025年12月09日
来源:Nucleic Acids Research 13.1
编辑推荐:
本刊推荐:面对多组学大数据和人工智能重塑生物学研究范式的重要机遇,中国国家生物信息中心-国家基因组科学数据中心(CNCB-NGDC)系统性更新了其数据库资源体系。研究团队通过构建BIG Search跨库检索平台、开发单细胞多组学资源(如TE-SCALE、scMultiModalMap)及疾病专项数据库(如CAVDdb、MTB-KB),实现了对169.5亿条生物数据的整合与智能检索。该成果显著提升了数据可用性,为精准医疗、作物育种等领域的创新研究提供了核心基础设施支撑。
随着高通量测序技术的飞速发展,生物学已全面进入多组学时代。单细胞测序和空间组学技术进一步提升了数据的维度和分辨率,全球范围内的大型科学计划如"All of Us"、人类细胞图谱(Human Cell Atlas)和地球生物基因组计划(Earth BioGenome Project)产生了涵盖不同物种、组织和人群的海量多模态数据。与此同时,人工智能(AI)技术正在催化研究范式的变革,AlphaFold、Geneformer和scGPT等里程碑式模型的出现,对标准化、可互操作和可重用(FAIR原则)的"AI就绪"数据基础提出了更高要求。
在这一背景下,中国国家生物信息中心-国家基因组科学数据中心(CNCB-NGDC)持续扩展其数据库资源网络,致力于为全球科研人员提供日益完善和智能化的生物资源套件。2026年度,该中心在高质量多组学数据集扩展、新数据库资源构建和现有核心资源优化方面取得了显著进展,特别是推出的BIG Search实现了对NGDC、美国国家生物技术信息中心(NCBI)和欧洲生物信息学研究所(EBI)等大型生物数据平台的跨库检索服务。
研究人员通过构建分布式可扩展的全文搜索引擎BIG Search,整合了NGDC内部数据库和64个合作伙伴数据库,总计达16.95亿条数据条目,同时支持35个NCBI生物数据库和165个EBI生物数据集的API接入。在数据资源方面,GSA(Genome Sequence Archive)系列归档了2645702个实验、2889823个运行序列,数据总量达83.09 PB;GWH(Genome Warehouse)新增了抗菌素耐药性基因注释功能;GVM(Genome Variation Map)收集了约20.9亿个变异位点,覆盖73个物种。在专业工具方面,开发了轻量级LLM代理框架Dingent、自动文献信息提取工具OmniExtract等创新资源。
关键技术方法包括:基于分布式架构的跨库检索技术(BIG Search)、单细胞多组学数据整合分析方法(scMultiModalMap)、非编码变异注释框架(TOAnnoPriDB)、深度学习辅助的元数据标准化系统(MethBank),以及利用倾向评分匹配的微生物组队列均衡技术(miMatch)。研究纳入了来自国际核苷酸序列数据库合作组织(INSDC)的公共数据资源,以及中国高原人群(Hiland Resource)、呼吸道微生物组(ResMicroDb)等特色队列数据。
CNCB-NGDC构建了涵盖搜索、知识、数据和工具四大类别的资源体系。BIG Search作为统一检索入口,支持全文检索和跨数据库关联查询;Database Commons收录了全球7346个生物数据库并进行影响力评估;BioCode集中归档了7520个生物信息学工具代码;OpenLB整合了超过3900万篇生物医学文献。
在基因组学领域,Hiland Resource整合了29977名高原人群的基因组数据,包含29878206个遗传变异和700342个表型-基因型关联;SugarcaneOmics集成了14种甘蔗及其近缘种的多组学数据,包含175百万个变异位点。在转录组学方面,LncExpDB 2.0将长非编码RNA(lncRNA)表达谱覆盖的生物学背景从9个扩展至15个,新增神经退行性疾病、生殖和伤口愈合等方向;TWAS Atlas 2.0整合了274972个基因-性状关联,新增多维度分析模块。表观基因组资源EWAS Open Platform引入了AI问答助手,新增54667个表观遗传关联。
TE-SCALE构建了首个跨20种癌症的单细胞转座子元件(TE)表达图谱,分析了超过130万个高质量细胞;scMultiModalMap整合了174个单细胞多模态数据集,涵盖320万个细胞;PreDigs提供了消化系统肿瘤的340万个细胞的注释标记资源;CROST新增3个模式生物的空间转录组数据,样本量同比增长30%。
CAVDdb整合了钙化性主动脉瓣疾病(CAVD)的多组学数据,包括214个组织样本和515个细胞系样本;MTB-KB手工提取了1187篇文献中的74408个结核分枝杆菌(MTB)相关关联;IDP(Immunity Deciphering Project)标准化整合了92662个免疫相关样本的多模态数据。
Dingent提供了基于LangGraph的轻量级LLM代理开发框架;OmniExtract在三个公共数据集上实现了82.63%-89.00%的提取准确率;TonguExpert基于5992张舌象图像建立了包含773个细粒度表型的数据库;VISTA实现了基于k-mer谱和机器学习的大规模病毒分类学分析。
研究表明,CNCB-NGDC通过系统性资源建设,显著提升了生物大数据的管理效能和利用价值。BIG Search实现的跨平台检索能力解决了异构数据资源整合的技术难题;单细胞多组学数据库为细胞异质性和疾病机制研究提供了新视角;疾病专项数据库推动了个性化医疗的发展。这些资源不仅支持基础科研的快速发展,更为药物研发、临床诊断和精准育种等应用领域提供了关键基础设施。
随着多组学和多模态数据的指数级增长,CNCB-NGDC将继续深化人工智能技术与生物数据的融合,优化大数据存储和计算平台,开发高效分析工具和流程,为生命科学、分子生物学和生物技术领域的知识发现提供强大支撑。这些努力有望加速个性化医疗、精准诊断、药物发现、作物育种和生物安全等领域的全球应用进程,推动跨学科研究和创新。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号