国家基因组科学数据中心2026年度资源更新：多组学大数据与人工智能驱动的生物信息学新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nucleic Acids Research》：Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2026

【字体：大中小】 时间：2025年12月09日 来源：Nucleic Acids Research 13.1

编辑推荐：

　　本刊推荐：面对多组学大数据和人工智能重塑生物学研究范式的重要机遇，中国国家生物信息中心-国家基因组科学数据中心（CNCB-NGDC）系统性更新了其数据库资源体系。研究团队通过构建BIG Search跨库检索平台、开发单细胞多组学资源（如TE-SCALE、scMultiModalMap）及疾病专项数据库（如CAVDdb、MTB-KB），实现了对169.5亿条生物数据的整合与智能检索。该成果显著提升了数据可用性，为精准医疗、作物育种等领域的创新研究提供了核心基础设施支撑。

随着高通量测序技术的飞速发展，生物学已全面进入多组学时代。单细胞测序和空间组学技术进一步提升了数据的维度和分辨率，全球范围内的大型科学计划如"All of Us"、人类细胞图谱（Human Cell Atlas）和地球生物基因组计划（Earth BioGenome Project）产生了涵盖不同物种、组织和人群的海量多模态数据。与此同时，人工智能（AI）技术正在催化研究范式的变革，AlphaFold、Geneformer和scGPT等里程碑式模型的出现，对标准化、可互操作和可重用（FAIR原则）的"AI就绪"数据基础提出了更高要求。

在这一背景下，中国国家生物信息中心-国家基因组科学数据中心（CNCB-NGDC）持续扩展其数据库资源网络，致力于为全球科研人员提供日益完善和智能化的生物资源套件。2026年度，该中心在高质量多组学数据集扩展、新数据库资源构建和现有核心资源优化方面取得了显著进展，特别是推出的BIG Search实现了对NGDC、美国国家生物技术信息中心（NCBI）和欧洲生物信息学研究所（EBI）等大型生物数据平台的跨库检索服务。

研究人员通过构建分布式可扩展的全文搜索引擎BIG Search，整合了NGDC内部数据库和64个合作伙伴数据库，总计达16.95亿条数据条目，同时支持35个NCBI生物数据库和165个EBI生物数据集的API接入。在数据资源方面，GSA（Genome Sequence Archive）系列归档了2645702个实验、2889823个运行序列，数据总量达83.09 PB；GWH（Genome Warehouse）新增了抗菌素耐药性基因注释功能；GVM（Genome Variation Map）收集了约20.9亿个变异位点，覆盖73个物种。在专业工具方面，开发了轻量级LLM代理框架Dingent、自动文献信息提取工具OmniExtract等创新资源。

关键技术方法包括：基于分布式架构的跨库检索技术（BIG Search）、单细胞多组学数据整合分析方法（scMultiModalMap）、非编码变异注释框架（TOAnnoPriDB）、深度学习辅助的元数据标准化系统（MethBank），以及利用倾向评分匹配的微生物组队列均衡技术（miMatch）。研究纳入了来自国际核苷酸序列数据库合作组织（INSDC）的公共数据资源，以及中国高原人群（Hiland Resource）、呼吸道微生物组（ResMicroDb）等特色队列数据。

数据库资源体系架构

CNCB-NGDC构建了涵盖搜索、知识、数据和工具四大类别的资源体系。BIG Search作为统一检索入口，支持全文检索和跨数据库关联查询；Database Commons收录了全球7346个生物数据库并进行影响力评估；BioCode集中归档了7520个生物信息学工具代码；OpenLB整合了超过3900万篇生物医学文献。

多组学数据资源进展

在基因组学领域，Hiland Resource整合了29977名高原人群的基因组数据，包含29878206个遗传变异和700342个表型-基因型关联；SugarcaneOmics集成了14种甘蔗及其近缘种的多组学数据，包含175百万个变异位点。在转录组学方面，LncExpDB 2.0将长非编码RNA（lncRNA）表达谱覆盖的生物学背景从9个扩展至15个，新增神经退行性疾病、生殖和伤口愈合等方向；TWAS Atlas 2.0整合了274972个基因-性状关联，新增多维度分析模块。表观基因组资源EWAS Open Platform引入了AI问答助手，新增54667个表观遗传关联。

单细胞与空间组学创新

TE-SCALE构建了首个跨20种癌症的单细胞转座子元件（TE）表达图谱，分析了超过130万个高质量细胞；scMultiModalMap整合了174个单细胞多模态数据集，涵盖320万个细胞；PreDigs提供了消化系统肿瘤的340万个细胞的注释标记资源；CROST新增3个模式生物的空间转录组数据，样本量同比增长30%。

疾病专项数据库建设

CAVDdb整合了钙化性主动脉瓣疾病（CAVD）的多组学数据，包括214个组织样本和515个细胞系样本；MTB-KB手工提取了1187篇文献中的74408个结核分枝杆菌（MTB）相关关联；IDP（Immunity Deciphering Project）标准化整合了92662个免疫相关样本的多模态数据。

人工智能驱动的新工具

Dingent提供了基于LangGraph的轻量级LLM代理开发框架；OmniExtract在三个公共数据集上实现了82.63%-89.00%的提取准确率；TonguExpert基于5992张舌象图像建立了包含773个细粒度表型的数据库；VISTA实现了基于k-mer谱和机器学习的大规模病毒分类学分析。

研究表明，CNCB-NGDC通过系统性资源建设，显著提升了生物大数据的管理效能和利用价值。BIG Search实现的跨平台检索能力解决了异构数据资源整合的技术难题；单细胞多组学数据库为细胞异质性和疾病机制研究提供了新视角；疾病专项数据库推动了个性化医疗的发展。这些资源不仅支持基础科研的快速发展，更为药物研发、临床诊断和精准育种等应用领域提供了关键基础设施。

随着多组学和多模态数据的指数级增长，CNCB-NGDC将继续深化人工智能技术与生物数据的融合，优化大数据存储和计算平台，开发高效分析工具和流程，为生命科学、分子生物学和生物技术领域的知识发现提供强大支撑。这些努力有望加速个性化医疗、精准诊断、药物发现、作物育种和生物安全等领域的全球应用进程，推动跨学科研究和创新。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号