-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature Biotechnology报道最新基因组组装方法
【字体: 大 中 小 】 时间:2013年11月11日 来源:生物通
编辑推荐:
华盛顿大学的科学家们在Nature Biotechnology杂志上报道了一种新的基因组组装方法,这种方法基于染色质相互作用,在染色体规模上进行从头基因组组装。这种方法在提高快速经济组装基因组的质量上迈出的重要一步。
生物通报道:华盛顿大学的科学家们在Nature Biotechnology杂志上报道了一种新的基因组组装方法,这种方法基于染色质相互作用,在染色体规模上进行从头基因组组装。这种方法在提高快速经济组装基因组的质量上迈出的重要一步。
一种新的计算方法被证实能够沿着整个染色体使DNA测序信息快速的分配、排列和确定方向。这种方法可以帮助我们克服基因组组装方法发展中的一个主要障碍,促进快速、低成本且精确的de novo基因组组装方法。这项研究成果表明,这种新方法收集的数据也能够验证癌症中的某种染色体异常。
这项研究进展,由华盛顿大学基因组科学副教授Jay Shendure医生带领的几个科学家们,发表在11月3日的Nature Biotechnology杂志上。
现有的技术能够以很低的成本,快速地产生数以亿计的DNA片段的“短读长”。 现在,各种各样的方法被用来将这些片段拼接在一起,以发现DNA片段是如何排列成更大范围的遗传密码。
然而,当前的方法产生了一个高度分散的基因组组装,缺乏一个关于“什么序列靠近什么其它序列” 的远程信息,这使更进一步的生物学分析变得很难。
“基因组科学,离达到人类基因组项目设定标准的、常规组装的基因组,仍然非常遥远,”研究者称。他们指出,人类基因组项目利用了很多不同的技术来获得这个最终结果。其中很多技术非常昂贵,有技术难度,对于大型项目不切实际,例如旨在进行10000个脊椎动物物种基因组测序和组装的“基因组10K的项目”。
Shendure的实验室成员们开发了这种他们所希望得到的、一种更加可扩展的方法,这些团队成员包括Joshua N.Burton、Andrew Adey、Rupali P. Patwardhan、Ruolan Qiu和Jacob O. Kitzman。
为了更完整地组装基因组,他们利用了一种称为Hi-C的技术,这项技术测量了细胞核内染色体的三维结构和物理区域。Hi-C映射了基因组中染色体区域之间的相互作用,包括在染色体内和与其它染色体之间的联系。结果显示,这些区域倾向于相互靠近的存在于一个细胞的细胞核内的三维空间中。
研究者推测,这种相互作用数据,可能会揭示出,沿着整个染色体DNA序列是如何被分组和排列的,因为这些数据提供了关于染色体不同区域的位置及其之间距离的线索。他们想知道,是否相互作用数据能够告诉他们,在每个染色体上,基因组的哪个区域是相互靠近的。
他们关于这个可能性的调查研究,使他们开发出被他们称为LACHESIS(“ligating adjacent chromatin enables scaffolding in situ”的首字母缩写)的程序。由Hi-C产生的相互作用图,被LACHESIS计算程序解读为:沿着染色体将基因组序列分配、排列和定位到它们的正确位置,包括靠近着丝粒——染色体形态中的“小腰身”间隙——的DNA。
研究者将他们的新方法与其它便宜的、广泛应用的测序方法相结合,产生了在染色体规模上的人、鼠和果蝇的基因组组装。研究者也能将几乎所有的scaffolds——彼此之间位置未知的、短的DNA片段的集合——归类到与单个染色体相符合的分组。
然后,他们排列和定位这些分配到每个染色体分组中的scaffolds,通过将它们与人类基因组项目中产生的这些物种的高质量参考基因组进行比较,验证了他们的结果。就人类基因组来说,在分配数以万计的连续DNA序列到染色体分组的过程中,他们达到了98%的精确度,在排列和定位染色体分组中的这些序列的过程中,精确度达到了99%。
“我们认为这种方法可能从根本上影响我们该如何利用下一代测序技术完成新基因组的组装,”Shendure指出。
然而,他和他的团队也列出很多计算和实验方法可能被改进的地方,这种方法是他的实验室的长期目标——帮助各种各样物种进行低成本的、高质量的、达到人类基因组项目设定的严格标准的基因组组装——的重要一步。(生物通:王英)
生物通推荐原文摘要:
Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions
Genomes assembled de novo from short reads are highly fragmented relative to the finished chromosomes of Homo sapiens and key model organisms generated by the Human Genome Project. To address this problem, we need scalable, cost-effective methods to obtain assemblies with chromosome-scale contiguity. Here we show that genome-wide chromatin interaction data sets, such as those generated by Hi-C, are a rich source of long-range information for assigning, ordering and orienting genomic sequences to chromosomes, including across centromeres. To exploit this finding, we developed an algorithm that uses Hi-C data for ultra-long-range scaffolding of de novo genome assemblies. We demonstrate the approach by combining shotgun fragment and short jump mate-pair sequences with Hi-C data to generate chromosome-scale de novo assemblies of the human, mouse and Drosophila genomes, achieving—for the human genome—98% accuracy in assigning scaffolds to chromosome groups and 99% accuracy in ordering and orienting scaffolds within chromosome groups. Hi-C data can also be used to validate chromosomal translocations in cancer genomes.