JoGo 1.0:基于长读长测序的全基因组ACTG分层单倍型数据库及其在精准医学中的应用

《Nucleic Acids Research》:JoGo 1.0: the ACTG hierarchical nomenclature and database covering 4.7 million haplotypes across 19,194 human genes

【字体: 时间:2025年11月30日 来源:Nucleic Acids Research 13.1

编辑推荐:

  为解决人类基因组单倍型解析不足、缺乏统一命名标准的问题,研究人员开发了JoGo 1.0平台,通过高保真长读长测序技术对258个全球样本进行单倍型组装,建立了覆盖19,194个人类基因的ACTG分层命名体系(A:氨基酸/C:编码区/T:转录本/G:基因体),收录465万条单倍型。该研究首次实现GRCh38与CHM13v2参考基因组单倍型的频率统一排序,并整合ClinVar、GWAS Catalog、GTEx等多组学数据,通过1280个RNA-seq样本的单倍型-QTL分析揭示单倍型结构与基因表达的关联,为疾病机制研究和精准医疗提供新范式。

  
人类基因组中紧密连锁的遗传变异往往以单倍型(haplotype)形式共同遗传,这种组合模式对基因功能调控具有决定性影响。尽管在HLA(人类白细胞抗原)、细胞色素P450等复杂基因家族中,单倍型分析已展现出巨大价值(如移植配型、药物基因组学应用),但由于短读长测序技术存在相位误差(phase switch errors),绝大多数人类基因仍缺乏全长单倍型的系统解析。随着高保真(HiFi)长读长测序技术的成熟,科学家们终于有机会构建覆盖全基因组的单倍型参考图谱,从而揭示遗传变异组合对基因表达、剪接和疾病风险的协同效应。
在此背景下,日本九州大学等机构联合团队在《Nucleic Acids Research》发表了JoGo 1.0(Joint Open Genome and Omics Platform)研究成果。该研究通过对258个全球样本(含108个新测序样本)进行HiFi长读长测序,首次建立了覆盖19,194个MANE标准蛋白编码基因的单倍型数据库,并创新性提出ACTG分层命名体系:A级(氨基酸变异)、C级(同义编码变异)、T级(非编码外显子变异)和G级(内含子变异)。每个层级按全球频率降序编号(如a1、c2),通过组合可形成AC、ACT、ACTG等多层级单倍型代码,实现了与HLA命名逻辑相似但适用范围扩展至全基因组的标准化描述。
研究团队采用多阶段技术路线:首先对258个样本(来自5大超级人群:东亚130例、非洲50例、美洲44例、南亚25例、欧洲9例)的HiFi数据进行GRCh38比对,通过hifasm进行局部单倍型组装;随后利用SnpEff进行变异注释,并基于同聚体校准模型进行严格质控(A/C级变异要求VQV≥100,错误概率≤10-10);最后通过频率聚类生成ACTG单倍型词典。特别值得注意的是,该研究将GRCh38和CHM13v2参考序列纳入同一频率排序体系,使不同参考基因组的单倍型可直接比较。
ACTG单倍型目录特征
研究共鉴定174,376个A级、300,610个C级、486,288个T级和3,695,204个G级单倍型(总计465.6万)。对18,095个基因进行亚采样分析显示,单倍型数量与对应序列长度呈正相关(A级R2=0.39,C级R2=0.44)。覆盖度分析表明,99.1%的基因在A级达到90%覆盖阈值(Good-Turing估计),但G级仅22.2%达标,提示内含子区域稀有变异尚未充分挖掘。
跨参考基因组的单倍型比较
通过将GRCh38和CHM13v2的单倍型映射至统一频率排序空间,研究发现两个参考基因组常呈现排名偏移。例如EMILIN3基因在GRCh38中的主要单倍型(a1)在CHM13v2中排名降至a10,而ADAMTS19则呈现相反模式。这种参考依赖性偏差凸显了单一参考序列的局限性,而JoGo的全局频率框架可辅助识别此类偏差。
在线与本地单倍型探索器
平台提供双模式可视化工具:在线探索器(图3)支持通过基因名、变异ID或ACTG代码查询,以热图形式展示单倍型频率和变异注释;本地探索器(图4)则提供预对齐BAM文件,用户可在IGV中安全整合私有数据。例如HBB基因查询结果包含氨基酸序列比对、连锁不平衡热图和人群频率分布,并直链ClinVar、GWAS Catalog等数据库。
单倍型-QTL分析
基于1,280个HapMap RNA-seq样本(3个独立队列)的单倍型-表达关联分析发现650,119个显著关联。以ERAP2基因为例,T级单倍型对(t2-t2)在三个队列中均显示更高表达量(p<10-5),证实单倍型层面QTL分析的可重复性。这种将多变异效应整合为生物学单元的分析方法,比传统单变异eQTL更能揭示调控机制。
研究讨论指出,JoGo 1.0的ACTG命名体系兼具向后兼容性和扩展性。未来计划通过增加样本多样性(特别是非洲、土著人群)、开发短读长数据推断工具、整合多组织QTL数据等方向升级平台。值得注意的是,单倍型ID将随版本更新按新频率重新分配,但会提供序列级映射表确保跨版本追溯。
该研究的核心突破在于将单倍型分析从局部基因座扩展至全基因组尺度,通过标准化命名和可视化工具桥接了遗传变异与功能注释之间的鸿沟。尤其ACTG层级设计使研究人员能灵活选择分析粒度——从蛋白质变异(A级)到全基因背景(G级),为复杂疾病机制解析、药物基因组学应用和精准医疗提供了前所未有的分辨率。随着T2T(端粒到端粒)基因组时代的到来,JoGo框架有望进一步整合结构变异和三维基因组信息,最终实现人类遗传多样性全景图谱的构建。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号