-
生物通官微
陪你抓住生命科技
跳动的脉搏
PacBio HiFi助力破译高度复杂的LPA串联重复序列的变异
【字体: 大 中 小 】 时间:2022年07月29日 来源:
编辑推荐:
今天,就让我们通过“A pan-genome approach to decipher variants in the highly complex tandem repeat of LPA” 一文,一起看看HiFi测序的技术优势近期在医学相关研究中的最新表现。
在三代测序崛起的时代,HiFi Reads以其长读长(最长可达25 kb),高准确率(≥Q30,即超过99.9%的测序精度)、单分子分辨率,高灵敏度、无GC偏好性等优势在医学领域、动植物基因组、微生态领域等研究中正崭露头角,成为基因组学研究技术的新宠。
今天,就让我们通过“A pan-genome approach to decipher variants in the highly complex tandem repeat of LPA” 一文,一起看看HiFi测序的技术优势近期在医学相关研究中的最新表现。
背景介绍
Lp (a)脂蛋白是冠状动脉疾病风险的重要因素,其表达与LPA基因的长度有关。
不同种族/民族之间血浆中 LP (a)的水平存在显著差异性。个体之间在LP (a)水平上的差异也是巨大的,其变化范围能达到平均水平的3倍。例如,非洲人后裔的血浆LP (a)水平是欧洲或亚洲人的2-3倍。之前的研究证据表明,这些差异跟遗传起源有关,但仍然没有明确的基因组数据被报道过用来进一步解释这些现象。
LPA基因结构详见下图,其KIV-2区是一段高度复杂的串联重复序列,重复次数在个体间变化很大(5~50+),每个重复长达5.5kb。该图示意了六个重复。Schmidt, K等科学家在之前的研究中发现,组成KIV-2的每个5.5kb拷贝的TR包含有两个外显子(1&2),中间隔一段4kb的内含子。KIV-2 两个TR拷贝间被1.2kb的一段内含子隔开。KIV-2每个TR拷贝的外显子2(182bp)是相同的(红色),而外显子1(160bp)有三种不同类型: a 型(蓝色)、 b 型(绿色)和 c 型(这里没有展示)。根据KIV-2串联重复次数多少,最多可构成LPA mRNA长度的70%。但由于LPA的KIV-2区片段长度长、串联重复次数多且可变,到目前为止,对KIV-2区的多样性仍知之甚少。
在这里,作者利用对47个不同种族来源的且能实现单倍型分型的PabBio三代测序数据进行泛基因组图谱分析,来进一步识别KIV-2区域存在的变异多样性。
本研究用到PacBio HiFi长读长数据和泛基因组图形分析的方法,相较于短读长测序,PacBio HiFi Reads最长可达25kb,对LPA上长达5.5kb且重复次数在5~50+的KIV-2区可实现更高的覆盖度;同时 HiFi Reads ≥Q30的高准确度,可以通过SNP分析进行Phasing,结合泛基因组图形分析法,不仅可以帮助深入理解在泛基因组水平上LPA的多样性,还为表征人类基因组其他复杂的临床相关区域提供了低成本和可扩展的路线图。
结果分析
为了在之前已有的研究基础上进一步探索KIV-2区域的多样性,本研究利用PacBio HiFi技术共获得了47个可定相(Phasing)和高度连续的长读长组装数据。这47个组装数据跨越了从美国(e.g.波多黎各)到非洲(e.g.冈比亚)到东亚(e.g.中国)的样本,代表了跨多种族的样本多样性。
图1A显示了47个个体和单倍型之间KIV-2拷贝数重复的关系。正如先前报道的,作者观察到不同个体中KIV-2重复的拷贝数高度不同。Y轴按照个体种族排序,黄色和品红色颜色代表两个不同的KIV-2单元 。在 KIV-2重复单元中,两种重复之间的大部分差异集中在外显子之间的短内含子上; 大部分错配发生在外显子之间的1,549个碱基上。蓝色部分代表一个新的单元(KIV-3) ,即标志着KIV-2重复序列的结束。
大多数数量可变的黄色重复序列之后会伴随数量可变的品红色重复。只有少数单倍型个体(18.7%)的重复序列的分布是分散的。品红色重复序列的存在和数量与种族/民族之间似乎没有明显的联系。
PacBio HiFi Reads数据组装结果不仅可以检测出大量的CNV,还可以进行SV及SNP位点识别,如图1B(上)展示的是包括其侧翼区域在内的通过 SNP(常见: 绿色;罕见:红色)识别得到的4个单倍型的KIV-2序列(R1-R5),而不同样本间的多样性(图1B下)由偏离支撑(即最厚)的环状结构来表示。由此进一步表明,不同个体中不仅KIV-2的拷贝数高度不同,而且在KIV-2区域也存在不同的SV和SNP位点。
通过PacBio HiFi Reads进行Phasing,对47个单倍型基因组上的KIV-2重复区域进行了多样性分析(用图C表示)。每个串联重复单元用一个小圆环表示,其中小圆环的个数和其环绕自身的次数等于每个单倍型中的重复数,由此可以观察到这些圆环所指示的重复序列之间的显著差异。
本研究发现,如图A所示,在这47个长读长测序组装数据结果中以及47个数据集彼此之间的KIV-2重复序列都具有显著的多样性,不仅表现在重复序列的数量上,而且在5.5kb序列内也清楚地表现出一些大的插入和缺失(基因组图形本身的不同路径表明了这一点)。
利用基因组结构图形不仅可以反映多样性,还可以进一步与短读长测序数据进行比对,这将有助于更大规模地评估LPA KIV-2多样性。
图B展示了两个样本(HG01109和HG02055) ,这里的黑线表示单独观察到的跨越一个KIV-2重复的单倍型。
红点的大小反映了可以映射到每个路径的Illumina reads的数量,并且确实表明了每个样本包含的多样性。
更为重要的一点是,通过PacBio HiFi 测序组装得到的数据可以通过这种基因组绘图的形式用来校准短读长数据mapping到感兴趣的目标区域,从而确定更多的变异类型。
总结
在这项研究中,作者应用了图形/泛基因组的概念获得对单个基因(LPA)的深入了解,而这个基因几十年来一直困扰着科学界。
本研究利用PacBio三代测序技术长度长、准确性高、可定相的优势,联合使用图形基因组的方法,不仅能够进行短读长测序数据的映射,而且能够鉴定个体内部和个体之间KIV-2重复序列中尚未发现的变异多样性。
本文的研究方法不仅可以深入研究LPA,还可以用来探索其他医学上重要但结构更为复杂、具有挑战性的基因。
参考文献:
A pan-genome approach to decipher variants in the highly complex tandem repeat of LPA. Chin et al.bioRxiv preprint doi: https://doi.org/10.1101/2022.06.08.495395
Schmidt, K., Noureen, A., Kronenberg, F. & Utermann, G. Structure, function, and genetics of lipoprotein (a). Journal of Lipid Research vol. 57 1339–1359 (2016).
基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。