一次HiFi测序,同步获得基因组+CpG甲基化组+染色质表观基因组+全长转录组信息

——PacBio Revio开启长读长多组学研究

【字体: 时间:2024年10月12日 来源:PacBio研习社

编辑推荐:

  来自美国华盛顿大学的研究人员及其合作者在bioRxiv预印本平台发表文章,描述了从单张Revio芯片测序中同时获得四种高质量、单倍型水平的组学数据,包括基因组、CpG甲基化组、表观基因组和全长转录组。

导读

目前,对孟德尔遗传病的诊断仍面临两大挑战,即准确检测致病性遗传变异,以及确定检出变异是否具有功能性后果。高准确度的长读长测序技术显著提高了遗传变异的检出率,但对其功能的判定仍具有一定局限性,尤其表现在评估非编码遗传变异时。虽然多组学方法能够通过将基因组信息与来自该样本的功能信息 (例如转录组和CpG甲基化信息) 互相整合,但当前的多组学方法多以短读长测序为基础,限制了它们全面表征样本中单倍型功能的能力。此外,当前多组学方法的数据虽然来自于同一个样本,但文库都是独立制备的,这就要求在事先对不同组学数据进行批次效应校正。

来自美国华盛顿大学的研究人员及其合作者在bioRxiv预印本平台发表了题为Synchronized long-read genome, methylome, epigenome, and transcriptome for resolving a Mendelian condition的文章,描述了从单张Revio芯片测序中同时获得四种高质量、单倍型水平的组学数据,包括基因组、CpG甲基化组、表观基因组和全长转录组。该方法整合了三项技术革新:首先,利用PacBio高通量Revio系统大规模生成高质量的长读长HiFi数据;其次,开发了一种分析染色质Fiber-seq数据的机器学习方法,以准确解析单倍型组装、单分子染色质可及性、核小体定位和转录因子调控模式;第三,采用MAS-Seq串联方法连接全长cDNA分子,以提高全长转录组测序通量。

image002.png

同步长读长多组学方法性能评估

同步长读长多组学方法的主要流程如图1所示,研究者以15:1的摩尔比混合Fiber-seq gDNA和MAS-Seq串联cDNA,在PacBio Revio平台上进行测序,每个样本总共产生超过600万HiFi reads。其中5-10%的reads源自MAS-Seq串联cDNA,而来自Fiber-seq gDNA的reads相当于26-30x的全基因组覆盖率。

image004.png

图1: 同步长读长多组学方法

研究者首先利用该方法对来自Genome in a bottle (GIAB) 项目的两个细胞系 (GM12878 [HG001]和 GM24385 [HG002]) 的遗传变异进行表征,以确定该方法识别遗传变异的准确性。结果显示,在GM24385中,Fiber-seq reads检测SNV,indel和SV的F1值分别为99.94%,98.81%和92.5%。此外,90.0%的Fiber-seq reads可以准确的定相到各自的单倍型,且这些reads可以用于生成高质量的基因组组装 (单倍型contig N50 >20 Mb,准确度为QV 50)。

表1: 同步长读长多组学数据概览

image006.png

该方法直接获得的CpG甲基化信息与传统的全基因组亚硫酸氢盐测序 (WGBS) 和ONT测序甲基化数据的相关性为0.92-0.93 (GM24385样本)。此外,m6A修饰标定了约3.32亿核小体足迹 (每个大小约147 bp)。最后,该方法能够识别超过200万个全长转录本,这些转录本源自GM24385细胞中表达的11,512个基因的48,967个独特isoform。基于以上结果,研究者总结道,使用同步长读长多组学方法获得的数据与使用传统的基于短读长的转录本和表观遗传学研究获得的数据之间具有很强的一致性。而将单倍型水平的染色质和转录组数据相结合,能够同时识别印记调控元件及其转录产物。

image008.png

图2: GM12878基因组中已知印记基因位点单倍型水平的基因组、CpG甲基化组、染色质表观基因组和转录组数据示例。

同步长读长多组学方法解析未确诊病例

接下来,研究者对运用该方法解析未确诊孟德尔遗传病的分子机制的能力进行了评估。研究者对来自Undiagnosed Diseases Network (UDN) 的一例未确诊病例 (UDN318336) 的皮肤成纤维细胞样本进行了同步长读长多组学分析。研究者获得了28x基因组数据,同时获得了CpG甲基化组和染色质表观基因组数据,以及2,196,793个全长转录本。

研究者基于全基因组数据组装结果,在NBEA基因的41号内含子中检测到易位断点,该易位最终导致NBEA基因单倍剂量不足。全长转录组数据显示,X染色体短臂上PDK3和MAB21L1基因形成了融合转录本,其翻译的PDK3蛋白的C端增加了66个氨基酸。同时该融合事件还导致了MAB21L1基因启动子的转录通读。转录通读往往会引起复杂的表观遗传变化,包括表观遗传沉默,而CpG甲基化组数据则证实了MAB21L1基因启动子的CpG超甲基化。虽然PDK3基因在患者的皮肤成纤维细胞中维持低表达,但在患者来源的视网膜类器官中呈现高表达。基于表观基因组数据,研究者揭示了PDK3基因启动子借助MAB21L1基因的增强子来提高PDK3基因表达的机制。

image010.png

图3: 同步长读长多组学方法揭示未确诊孟德尔遗传病的遗传机制。

结论与展望

同步长读长多组学方法能够比较二倍体个体内两个单倍型之间的表观遗传和转录信号,以此来识别改变表观基因组或转录组的杂合变异或双等位基因变异。由于大多数孟德尔遗传病是由杂合变异或双等位基因变异引起的,因此该方法除了能够借助编码区变异信息有效的对与疾病相关的非编码变异进行定相外,还非常适合用于判定非编码变异的功能。研究人员表示,该方法有望为临床医生和科研工作者更深入的了解不同类型的遗传变异驱动人类疾病的机制提供帮助,以鉴定出调节这些疾病的潜在分子靶标。

相关文献

Vollger et al. 2023. Synchronized long-read genome, methylome, epigenome, and transcriptome for resolving a Mendelian condition. bioRxiv. 2023.09.26.559521. doi: 10.1101/2023.09.26.559521.

PacBio产品仅供研究使用。不用于临床诊断。

欲了解更多信息,请扫码添加产品经理企业微信。

image012.jpg

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号