-
生物通官微
陪你抓住生命科技
跳动的脉搏
新技术攻克单分子测序大问题
【字体: 大 中 小 】 时间:2012年07月16日 来源:生物通
编辑推荐:
来自冷泉港实验室(CSHL)的一位定量生物学家及其同事开发出了一种混合错误校正新方法,攻克了PacBio单分子测序的重大问题,可将长读序的准确度提高到99.9%。这一研究成果发布在7月1日的《自然生物技术》(Nature Biotechnology)杂志上。
来自冷泉港实验室(CSHL)的一位定量生物学家及其同事开发出了一种混合错误校正新方法,攻克了PacBio单分子测序的重大问题,可将长读序的准确度提高到99.9%。这一研究成果发布在
领导这一研究的是冷泉港实验室助理教授Michael Schatz以及马里兰大学和国家生物防卫分析和对策中心的Adam Phillippy 和 Sergey Koren。
在这篇文章中,研究小组开发了一个软件包可校正PacBio单分子测序中的一个严重问题:单分子测序中的碱基错读。但PacBio单分子测序的主要优点是测定的读序片段比当前其他二代测序技术长100倍,由此获得的基因组结构信息比目前第二代测序技术更完整。
Schatz及研究团队通过一种数学算法保留了PacBio测序技术的巨大优势,消除了它的主要缺陷。他们将测序读序错误率从15%减少为不到千分之一。这一数学算法以开放源代码的形式发布到万维网上,大大提高了第三代测序在整个生物医学研究界的实用性。
研究人员将这种算法应用于多种生物测序中,小到噬菌体病毒,大到复杂的鹦鹉基因组,都得到了良好的结果,展示了PacBio单分子测序技术广泛的应用范围。
“一条染色体,一个重叠群”
使用这种方法使PacBio单分子测序技术的长读长优势得到了良好的展现,其存在的高错误率也得到了纠正,能够高效并精确的组装基因组,使得“一条染色体,一个重叠群”的目标的实现变的可能。
鹦鹉基因组大小超过人类基因组的三分之一,而发现鹦鹉基因组的优越性就要归功于第三代PacBio测序的长片段读序优势。当前使用的第二代测序技术生成大量的短的重叠群,而每个片段的一致版本是许多读序叠加的结果,虽然非常精确,但这些拼图小块太短,难以用来精确装配特定基因组区域,如包含长重复序列的区域。
而PacBio单分子测序技术生成的重叠群更长,能更好组装较大的基因组片段,包括那些长重复片段。Schatz和研究团队希望在提高测序准确率的同时保留单分子测序的这一优势,他们通过有效结合第二代和第三代测序技术的优势做到了这一点。
这种方法被称为‘混合错误校正(hybrid error correction),研究人员充分利用了第三代测序仪Pacific Biosciences RS的读长优势,并在其中混入第二代测序仪生成的精确短读序数据。用公共基因组装配程序Celera Assembler处理这两种数据,生成的装配结果准确性达到99.9%,拼接的重叠群平均长度是第二代测序仪所能得到的两倍以上。随着单分子测序技术的发展,预计这一混合方法得到的重叠群还会增长。
高效快速的de novo拼接有助于发现大片段的结构变异,对理解癌症基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。
高质量的基因组装配对于基因组注释和比较基因组分析尤为重要。许多微生物基因组分析取决于基因组测序的完成,但旧测序技术成本高昂。对高等生物进行高质量的基因组分析则依赖于测序捕捉到诠释基因的DNA片段。近年来研究发现基因组中存在自发性的结构改变,即拷贝数变异,这使得通过长片段DNA读序和组装获得病患个体清晰准确的全基因组信息非常重要。
Schatz和他的同事们通过混合第二代测序技术进行错误校正的方法,使PacBio测序读序相关的错误率不再是基因组装配的障碍。利用PacBio测序技术的长读序结合与之互补的短读序可以有效进行基因组装配,完成此前不可能实现的测序任务。
相关文章: