-
生物通官微
陪你抓住生命科技
跳动的脉搏
PacBio单分子测序技术结合Bionano单分子光学图谱技术打造完美Korean基因组
——完成从头组装,结构变异及定相分析,Contig N50达到17.9Mb,Scaffold N50达到44.8Mb
【字体: 大 中 小 】 时间:2016年10月09日 来源:
编辑推荐:
在*新一期的《Nature》杂志上,来自韩国首尔国立大学医学研究中心基因组医学研究所的Jeong-Sun Seo及其团队发表了一个Korean基因组序列:题为“ De novo assembly and phasing of a Korean human genome”,这是迄今为止发表的*为连续的人类基因组,为遗传学家提供了特异性人群参考基因组的重要数据。
在*新一期的《Nature》杂志上,来自韩国首尔国立大学医学研究中心基因组医学研究所的Jeong-Sun Seo及其团队发表了一个Korean基因组序列:题为“ De novo assembly and phasing of a Korean human genome”,这是迄今为止发表的*为连续的人类基因组,为遗传学家提供了特异性人群参考基因组的重要数据。
图1 实验设计及数据分析流程
作者采用了PacBio 单分子实时(SMRT)测序技术,Bionano下一代图谱技术,微流体linked reads及BAC测序等方法,完成了一个Korean个体AK1(ref.1)基因序列的从头组装和单倍体型定相信息分析。运用PacBio单分子测序技术结合Bionano下一代图谱技术,获得了高度连续的组装图,contig N50高达17.9Mb,scaffold N50高达44.8Mb,并有8个染色体臂被分别组装解析为单独的scaffold。这次从头组装,结合长读长扫描,关闭了常染色体参考基因组190个gap中的105个,并延伸了其中的72个gap,补充了1.03Mb以前棘手的序列。
图2 AK1 de novo assembly scaffolds 与 GRCh38 数据结果进行比较
结合62,758个BAC克隆的组装和Paired-End序列信息,通过与人类参考基因组直接比较,作者还鉴定到了18,210个结构变异,其中发现了数千个以往从未报道过的断裂点。大多数Insertion在转录本中同样得到反映,并存在于其他的亚洲人群中。
作者鉴定到的18,210个结构变异(Structural Variation, SVs),包含7,358个Deletion,10,077个 Insertion,71个Inversion和704个复杂变异(Complex Variants),所有这些变异均在AK1组装结果和人类参考基因组GRCh37之间进行了直接比较,达到了单碱基的分辨率。在18,210个结构变异中,总共有11,927个变异是以前未曾报道的,其中包括的3,465个Deletion占总Deletion的47%,7,710个Insertion占总的Insertion的76%。在这些新的SVs中,86%高度集中于移动元件和串联重复序列。相对应转录本的PacBio长读长序列显示,有155个Isoform是从54个全新的插入位点处表达的,这意味着这些人类基因组中功能元件的存在,在以前是不可能通过短读长技术检测到的。
图3 SV的整体分布
A. 通过直接比较AK1组装图和GRCh37参考基因组比较,检测deletion(红色),insertion(蓝色),inversion(绿色),complex variant(灰色)。外圈饼图表示每种新发现的每种SV类型。总共65%(11,927)的SV是以前未见报道的。
B. AK1中insertion和deletion的重复序列组成。Insertion和deletion都是大部分由移动元件或串联重复序列构成。复杂变异被定义为由几种注释的重复元件构成的变异,或至少30%的剩余序列未被注释为重复序列。
作者还使用来自全基因组测序中的short reads,long reads和linked reads以及来自31,719个BAC克隆的short reads进行了单倍体型定相分析(Haplotype Phasing),获得了N50大小为11.6Mb的Phased blocks。从PacBio单分子实时测序reads组装得到的Haplotigs比对到Phased blocks上的单倍体型覆盖了89%的基因。这些haplotigs准确的描述了高度可变的MHC (Major Histocompatability) 复杂区域,并展示了临床诊断相关的基因的等位基因结构,如CYP2D6。
图4 高度杂合区域的全基因组分布图谱及单体型A/B表达水平分布
图5 MHC Class II区域中的HLA基因。该区域为高度可变的复杂区域,包含了许多结构变异区域,因而通过参考基因组难以做到正确的定相分析,但可以通过de novo的方式进行全长分析
随着测序技术的发展,不同平台对人类基因组都进行了不同层面的测序分析。作者比较了目前已有的人类基因组组装的测序平台,算法,组装和phasing统计数据。比较表明,单分子长读长测序技术在生成高质量组装数据上远超过短读长测序技术。(见下表)
表1 人类从头组装及单倍体型定相信息总结统计
基因组组装和定相(phasing)信息研究的发展,为科学家们在不同人群中研究人类基因组二倍体结构,以及所有结构变异的发现提供了机会。本文利用PacBio第三代单分子测序技术与Bionano下一代图谱技术,展示了目前*为连续的二倍体人类基因组组装结果,进一步研究了未报道过的亚洲人群特异的结构变异,以及可用于精准医学临床诊断的相关等位基因的高质量单倍体型。