-
生物通官微
陪你抓住生命科技
跳动的脉搏
三代测序时代即将来临:PacBio首次确认一种疾病大片段缺失突变
【字体: 大 中 小 】 时间:2016年12月09日 来源:生物通
编辑推荐:
二代测序为生命科学研究带来了翻天覆地的变化,但是越来越多研究表明这种短读长测序SRS对大片段结构变异的检测能力非常有限。近期生物学预印网站BioRxiv公布了一项斯坦福大学的最新成果,发布了第一例发表的PacBio在致病突变确诊当中的应用。同时纳米孔测序仪MinION也宣布首次完成了多个人类基因组的测序。
二代测序为生命科学研究带来了翻天覆地的变化,但是越来越多研究表明这种短读长测序 (short-read sequencing, SRS)虽然高通量,成本低,然而对于串联重复序列、高GC/AT序列、高度多态性区域、高度同源区域以及大片段结构变异的检测能力非常有限,难以全方位的捕捉基因组的变化。据估计,使用100bp的测序读长,有5% 的测序片段无法定位到唯一的基因组区域。
第三代测序的出现为解决这一难题带来了希望,比如PacBio属于长读长测序(long-readsequencing,LRS),可以有效的弥补SRS的不足之处。PacBio在临床基因组学中的应用,让我们有机会了解以往常被忽视的遗传变异。此外牛津纳米孔公司MinIONs测序也逐渐在基因组测序领域焕发出光彩。
比如近期生物学预印网站BioRxiv公布了一项斯坦福大学的最新成果:Long-read whole genome sequencing identifies causal structural variation in a Mendelian disease,这是第一例发表的PacBio在致病突变确诊当中的应用,证明了第三代测序技术在疾病相关的结构变异中有巨大的潜力。
Carney综合征(Carneycomplex, CNC)是一种罕见的常染色体显性遗传疾病,多发心脏和皮肤黏液瘤,常伴有皮肤色素沉着与内分泌过度等症状。位于17号染色体的抑癌基因PRKAR1A与CNC发病有关,因此又称为CNC1基因,该基因的突变可引起肿瘤发生。
本文的患者个体为Carney综合征的疑似病例。患者出生时表现出了一定的呼吸问题,7岁时首次发现心脏黏液瘤,随后予以切除,10岁时发现有睾丸肿块,13岁时发现有垂体瘤,18岁时再次切除了复发的心脏粘液瘤。此时,患者被怀疑患有Carney综合征,但临床PRKAR1A基因突变检测显示为阴性。2016年,患者在准备进行心脏移植时,医生团队第二次进行了全基因组测序分子诊断。此次检测使用Illumina HiSeq 2500平台完成,平均测序深度36×,数据分析由斯坦福大学(Stanford Medicine Clinical Genomics Service)完成,但此次分析没有检测出任何可以解释患者临床表征的遗传变异。
为了评估基因组结构变异,发现潜在的致病原因,研究人员在PacBio Sequel系统上进行了全基因组测序,测序文库为10kb DNA文库,共使用10个SMRT cell芯片,测序获得26.7Gb数据(约8.6×),测序读长N50为9612 bp。经生物信息分析,共发现了大于50bp的6971个缺失和6821个插入变异。通过与阴性对照对比,并侧重分析疾病相关基因的外显子区域,共鉴定出重要的3个插入和3个缺失变异,其中就包含PRKAR1A。分析结果显示,在PRKAR1A基因第一个外显子中包含2184 bp的杂合性缺失突变。 Sanger测序结果也发现此缺失突变的存在,并且证实了PacBio可以精确检测出缺失断裂点。
PacBio测序鉴定出的PRKAR1A基因1号外显子处2184bp杂合性缺失。
文章指出,人类基因组中存在着许多低复杂度的区域,如重复序列和高多态性的区域、HLA区域等,这些区域的存在对短读长和基于参考的基因组组装是非常大挑战。虽然目前的SRS已经在单核苷酸和小插入/缺失变异的遗传发现中非常成功,但最近的研究表明我们大大低估了基因组中结构变异的复杂性,另外,许多疾病正是由超出SRS分辨率范围的序列重复引起的。
同时,12月初,牛津大学人类遗传学威康信托中心(WTCHG)联合基因组分析公司Genomicsplc宣布,他们利用牛津纳米孔公司MinIONs测序仪首次完成了多个人类基因组的测序。
2012年,Oxford Nanopore公司在AGBT(基因组生物学技术进展年会)上发布了自己的纳米孔测序系统——MinION。MinION测序仪是一种手持式设备,通过USB设备与电脑相连,加上耗材试剂,它的售价仅为1000美元。
今年年初Nature杂志发表的一项研究展示了这种便携式基因组测序仪在这次疫情中起到的重要作用。研究人员用这些测序仪在几内亚建立了基因组测序实验室,对埃博拉患者的样本进行实时测序,严密监控了埃博拉疫情的发展。
国立首尔大学医学院的研究人员和10xGenomics公司也利用去年新发售的GemCodeTM测序平台以及第三代测序PacBio单分子实时测序平台,对一名韩国人的基因组(AK1)进行从头组装和单倍体型定相信息分析。这是迄今为止发表的最为连续的人类基因组组装,填补了特异人群参考基因组的空白,并确定了结构变异。相关结论发表在Nature杂志上。
(生物通综合)
原文摘要:
Long-read whole genome sequencing identifies causal structural variation in a Mendelian disease
Current clinical genomics assays primarily utilize short-read sequencing (SRS), which offers high throughput, high base accuracy, and low cost per base. SRS has, however, limited ability to evaluate tandem repeats, regions with high [GC] or [AT] content, highly polymorphic regions, highly paralogous regions, and large-scale structural variants. Long-read sequencing (LRS) has complementary strengths and offers a means to discover overlooked genetic variation in patients undiagnosed by SRS. To evaluate LRS, we selected a patient who presented with multiple neoplasia and cardiac myxomata suggestive of Carney complex for whom targeted clinical gene testing and whole genome SRS were negative. Low coverage whole genome LRS was performed on the PacBio Sequel system and structural variants were called, yielding 6,971 deletions and 6,821 insertions > 50bp. Filtering for variants that are absent in an unrelated control and that overlap a coding exon of a disease gene identified three deletions and three insertions. One of these, a heterozygous 2,184 bp deletion, overlaps the first coding exon of PRKAR1A, which is implicated in autosomal dominant Carney complex. This variant was confirmed by Sanger sequencing and was classified as pathogenic using standard criteria for the interpretation of sequence variants. This first successful application of whole genome LRS to identify a pathogenic variant suggests that LRS has significant potential to identify disease-causing structural variation. We recommend larger studies to evaluate the diagnostic yield of LRS, and the development of a comprehensive catalog of common human structural variation to support future studies.
知名企业招聘