-
生物通官微
陪你抓住生命科技
跳动的脉搏
HiFi测序揭秘串联重复序列!
【字体: 大 中 小 】 时间:2024年05月11日 来源:基因有限公司
编辑推荐:
PacBio HiFi长读长测序的高精确度使其可以全面地表征整个基因组的串联重复的种系和体细胞变异。Nature biotechnology上的一篇文章介绍了基于HiFi测序的串联重复基因分型工具以及串联重复可视化的配套方法。
研究背景
串联重复 (Tandem Repeat, TR) 是基因组中由DNA序列基序的精确或接近精确重复组成的区域。TR有许多类型,包括同聚物(单碱基重复)、短串联重复序列(STR;2-6 bp 基序)和可变数量串联重复序列(VNTR;> 6 bp 基序)。TR在典型人类基因组中占遗传变异的很大一部分。例如,TR扩张与50多种单基因疾病有关,例如亨廷顿病、肌萎缩侧索硬化症和脆性X综合征。TR从头扩张与癌症以及一些神经发育和精神疾病有关。TRs体细胞嵌合与罕见疾病发病年龄、严重程度和进展相关。
然而,由于缺乏准确、高通量、全基因组的检测方法,TR长度和表型之间的相关性并未被充分研究。虽然目前已经开发出信息学方法来解决短读长测序数据中的一些问题。但是,当重复序列接近或大于测序读长的长度(短读长通常为150bp)时,它们的准确度较低。许多已知的串联重复只有当其大小达到数百个碱基对时才具有致病性,这意味着短读长测序通常无法确定致病重复的确切长度和序列组成。例如,不可能使用短读长序列来可靠地区分FMR1重复序列的预突变 (165–600bp) 和完全扩展突变 (>600bp)两种模式。
相比之下,长读长测序特别适合全面地分析重复序列,因为它可以捕获整个重复序列。PacBio HiFi长读长测序的高精确度使其有可能全面地表征整个基因组的TRs的种系和体细胞变异。此外,该技术能够对 TR 区域进行 CpG 甲基化分析,从而提供同时评估TR 区域的遗传和表观遗传突变以揭示隐藏的生物学模式的潜力。特别是,可以利用重复长度和甲基化状态之间的关联来检测高度甲基化的致病性扩增。
文献解读
2024年1月发表在nature biotechnology上的一文"Characterization and visualization of tandem repeats at genome scale"描述了基于HiFi测序的串联重复基因分型工具(Tandem Repeat Genotyping Tool,TRGT),以及串联重复可视化(Tandem Repeat Visualization,TRVZ)的配套方法。TRGT使得分析结构复杂的TR成为可能。
首先,研究人员介绍了精确的串联重复变异检测工具TRGT,它能够利用PacBio HiFi测序数据来识别TRs。使用TRGT可以确定TRs的共识基序并测量其甲基化水平,同时也能报告每个重复等位基因的reads。这些reads可使用TR可视化工具TRVZ进行后续可视化分析,如图1所示。TRGT评估了937,122个TRs,它们显示出了98.38%的孟德尔协同性。在6个已知重复扩张的样本中,TRGT检测到了所有扩张,同时还识别出了甲基化信号和镶嵌性,并提供比现有方法更精细的串联重复的长度分辨率。此外,研究人员还发布了一个包含936,122个TRs的等位基因序列和100个基因组的甲基化水平数据库。
图1. TRGT 和 TRVZ 概览。a,TRGT 的输入由 HiFi reads和重复定义列表组成。b,TRGT 确定共有重复等位基因。c,TRGT使用 TR 区域的预先指定的结构来定位每个重复等位基因中的单个基序拷贝。d,使用HMM(隐马尔可夫模型)指定更复杂的重复区域。e,TRGT 输出中关键字段的概述。f,TRVZ 生成显示重复等位基因和与它们对齐的读数的图,并具有可选的甲基化。
然后,作者介绍了这937,122个串联重复(TRs)在全基因组中的变异性研究成果。作者建立了一个名为TRGTdb的数据库,收集了来自Human Pangenome Reference Consortium (HPRC)的100个HiFi测序样本,用以评估TRs的长度多态性。研究发现,约31.23%的TR位点没有显示出反复出现的突变(其中11.35%是单等位基因,19.88%是双等位基因),68.77%的位点是多等位基因。在多等位基因中,66.30%有3到5个等位基因,26.87%有6到10个等位基因,6.83%有超过10个等位基因。作者还使用TRTools软件包评估了Hardy-Weinberg平衡,发现超过99%的TRs通过了先前使用的Hardy-Weinberg平衡阈值。此外,该研究对TR序列组成的变异进行了分析。作者计算两个等位基因间的组成差异分数,以量化重复序列的组成变异。结果表明,该数据库中的多数TR等位基因都具有相对一致的组成。
研究人员还通过使用 TRGT 评估每个串联重复等位基因的平均甲基化水平来分析 CpG 甲基化。由此产生的甲基化水平分布与预期的人类基因组甲基化谱图一致:与 CpG 稀疏区域相比,CpG 密集区域的甲基化明显较低,如图2.d所示。接下来,研究人员将分析重点放在与 CpG 岛重叠的 TR 位点上,并通过它们与启动子的交叉点对每个位点进行注释。总共有9,821个TR基因座与 CpG 岛重叠,以及2,671个启动子重叠。与 CpG 岛重叠的 1,425,694 个 TR 等位基因的平均甲基化水平呈双峰分布,如图 2e。
图2. 100 个 HPRC 样本中 n = 937,122 个TR区域的遗传和表观遗传变异。a,长度多态性分数的分布,定义为每100个样本的不同长度等位基因的数量。b,等位基因CPS(组成多态性评分)的分布。c,已知致病性重复序列的长度和组成z-scores. d,按 CpG 密度分层的等位基因平均甲基化水平分布。e,与 CpG 岛重叠的 TR 的平均甲基化水平。
紧接着,研究人员提供了对RFC1基因内重复区域与疾病之间关联性的信息。RFC1基因位于第4号染色体的39348424至39348479位置,其内的重复序列与脑小叶共济失调、神经病变和前庭反射消失综合征(CANVAS)有关。RFC1的重复序列的组成较为多变,包括AAAAG、AAAGG和其他模式的片段。CANVAS被认为与AAGGG或ACAGG基序片段的生物双等位基因扩张有关。使用TRGT描述RFC1的重复序列,采用隐马尔可夫模型(Hidden Markov Model, HMM)反映这些基序的顶级排序。HMM可以将每个等位基因的序列区分为由每个基序范围组成的一系列区域。此外,通过对基因内RFC1区域的分析,展示了工具TRGT的功能,证明其能够分析该重复区域并正确识别扩增变异,如图3所示。
图3. RFC1 重复等位基因的遗传变异。a,代表源自先验已知基序的 RFC1 TR 群体结构的 HMM。b,TRVZ 图描绘了 HG04228 样本中 RFC1 重复的两个等位基因。c,描绘每个等位基因(行)上每个基序(列)跨度的热图;每个等位基因簇都与其主导图案的颜色相关。d,每个簇的等位基因示例。e,属于每个簇的等位基因的长度。
最后,研究人员分析了与脆性X症候群(Fragile X syndrome)有关的FMR1基因启动子区域的CGG重复序列。FMR1基因的等位基因如果包含55到200个CGG重复,则称为前突变(pre-mutations),与脆性X相关的共济失调症(Fragile X-associated ataxia syndrome)和脆性X相关的原发性卵巢功能不足(Fragile X-associated primary ovarian insufficiency)有关。拥有200个或更多CGG重复的等位基因则称为完全扩张(full expansions),导致脆性X症候群。完全扩张与重度的CpG甲基化以及体细胞嵌合性有关,意味着扩展重复的确切长度可能在细胞间有变化,如图4所示。
图4. FMR1 重复序列的遗传和表观遗传变异。a,100 个 HPRC 样本中 FMR1 等位基因大小的分布。b、c,分别是 HG04184 (b) 和 HG00438 (c) 样本中 FMR1 重复的 TRVZ突变前等位基因图。d,HG01099男性样本中FMR1 重复的TRVZ图,显示 CpG 甲基化。e,跨越 FMR1 重复序列的HG01099 读数的中位甲基化水平分布。f,所有男性样本中FMR1 读数的中位甲基化水平分布。g,HG03831女性样本中FMR1重复的TRVZ图,显示CpG甲基化。h,跨越 FMR1 重复序列的HG03831 读取的中位甲基化水平分布。i,所有女性样本中FMR1读数的中位甲基化水平分布。j,来自女性捐赠者的前额皮质样本的前突变重复等位基因(未显示短等位基因)。k,来自男性捐赠者的前额皮质样本的前突变重复等位基因。l,来自男性捐赠者的前额皮质样本的完全扩展的重复等位基因。m,前额皮质样本的甲基化概况。
划重点
这篇文章利用PacBio的HiFi测序技术分析了基因组中的串联重复序列。通过PacBio HiFi测序技术,研究者开发了串联重复基因型诊断工具和串联重复可视化工具,来精确地分析和表征特定TRs序列以及其甲基化水平。
PacBio HiFi技术因其高准确性与能够产生长读长片段的特征,使研究者能够捕捉连续完整的重复序列以及TR区域内的CpG甲基化信息。这意味着可以在单次测序实验中同时评估基因和表观遗传变异。此外,HiFi技术也适合综合性地分析因长度极限和结构复杂度导致短读取技术无法有效应对的重复区域,这包括了简单的短串连重复和复杂的变量数量串联重复。
总结,PacBio的HiFi测序技术在该篇文章中的应用显示了它在解决分析TRs序列挑战中的重要价值,并且在疾病相关基因组研究和精确医疗领域有着巨大的应用前景。
基因有限公司作为PacBio中国区代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。