-
生物通官微
陪你抓住生命科技
跳动的脉搏
一个完整的人类基因组序列:科学家是如何填补空白的?
【字体: 大 中 小 】 时间:2021年06月08日 来源:nature
编辑推荐:
研究人员增加了2亿个DNA碱基对和115个蛋白质编码基因,但他们还没有对Y染色体进行完全测序。
二十年前,人类基因组计划(human genome Project)和赛莱拉基因组公司(Celera Genomics)宣布人类基因组测序时,该序列还没有真正完成。大约15%的DNA缺失了:技术上的限制使研究人员无法计算出特定的DNA片段是如何组合在一起的,特别是那些有许多重复字母(或碱基对)的片段。随着时间的推移,科学家们解开了一些谜团,但最近的人类基因组(遗传学家自2013年以来一直用作参考)仍然缺少完整序列的8%。
现在,由大约30个机构组成的国际合作组织——端粒到端粒联盟(tmt)的研究人员填补了这些空白。在5月27日一份名为“人类基因组的完整序列”的预印本中,加州大学圣克鲁兹分校的基因组学研究人员凯伦·米加和她的同事们报告说,他们已经对剩下的部分进行了测序,在此过程中发现了约115个新基因,共计19,969个蛋白质编码基因。
位于马里兰州贝塞斯达的美国国家生物技术信息中心的生物信息学家Kim Pruitt说:“能在这些问题领域找到一些解决方案是令人兴奋的。”他称这一结果是一个“重要的里程碑”。
新测序的基因组被称为T2T-CHM13,它在2013年版本的人类基因组序列基础上增加了近2亿个碱基对。
这一次,研究人员没有从活人身上提取DNA,而是使用了一种来自完整的葡萄胎的细胞系。葡萄胎是一种人体中精子与无核卵子受精时形成的组织。由此产生的细胞只含有来自父亲的染色体,所以研究人员不需要区分来自不同人的两组染色体。
Miga说,如果没有加利福尼亚州门洛帕克的太平洋生物科学公司的新测序技术,这一壮举可能不可能实现。该技术使用激光扫描从细胞中分离出来的长时间DNA——每次多达2万个碱基对。传统的测序方法每次只读取几百个碱基对的DNA片段,然后研究人员像拼图一样重新组装这些片段。较大的碎片更容易组合在一起,因为它们更有可能包含重叠的序列。
然而,T2T-CHM13并不是关于人类基因组的最后定论。T2T研究小组在解析染色体上的一些区域时遇到了困难,并估计大约0.3%的基因组可能包含错误。虽然没有差距,但Miga说,这些地区的质量控制检查被证明是困难的。而形成葡萄胎的精子细胞携带X染色体,所以研究人员还没有确定Y染色体的序列,而Y染色体通常会触发男性的生物发育。
T2T-CHM13只代表一个人的基因组。但T2T联盟已经与一个名为人类泛基因组参考联盟(Human Pangenome Reference Consortium)的组织合作,该组织的目标是在未来3年内对全世界300多个人类基因组进行测序。Miga说,研究小组将能够使用T2T-CHM13作为参考,以了解个体之间基因组的哪些部分往往存在差异。他们还计划对包含父母双方染色体的整个基因组进行测序,而Miga的团队也一直在对Y染色体进行测序,使用同样的新方法来帮助填补空白。
Miga希望遗传学研究人员能够很快发现新测序的区域和可能的基因是否与人类疾病有关。“当人类基因组出现时,我们没有现成的工具”,她说,但是关于新测序基因功能的信息现在应该会更快地出现,因为“我们已经建立了大量的资源”。
她希望未来的人类基因组序列将涵盖一切,包括新测序的部分,而不仅仅是容易阅读的部分。既然参考基因组已经完成,一些技术上的障碍也已经解决,这应该会容易些。她说:“我们需要在基因组学方面达到一个新的标准,在这个标准下,这不是特殊的,而是常规的。”
知名企业招聘