-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类蛋白质编码基因到底有多少?
【字体: 大 中 小 】 时间:2014年07月07日 来源:生物通
编辑推荐:
构成人类基因组的蛋白质编码基因的实际数目,一直是一个长期讨论的话题。目前,由西班牙国家癌症中心(CNIO)基础研究副主任和结构计算生物学团队负责人Alfonso Valencia带领的一项研究,将人类蛋白质编码基因数目更新到了19,000个;比最近注释的基因少1700个,远低于最初估计的100,000个。相关研究结果发表在最近的国际著名学术期刊《人类分子遗传学》(Human Molecular Genetics)。
生物通报道:构成人类基因组的蛋白质编码基因的实际数目,一直是一个长期讨论的话题。在人类基因组第一稿出来之前,许多研究人员认为,人类蛋白质编码基因的最终数目在40,000到100,000之间。最初的人类基因组测序大幅修改了这个数字,表明最终数字会下降至26,000到30,000之间。随着人类基因组计划的最终草案公布,蛋白质编码基因的数目被再次修改至20,000到25,000之间。最近,Clamp和同事用进化比较表明,蛋白质编码基因最可能的数目更低,只有20500个基因。GENCODE项目最近发布的数据包括20,719个蛋白质编码基因。
目前,由西班牙国家癌症中心(CNIO)基础研究副主任和结构计算生物学团队负责人Alfonso Valencia带领的一项研究,将人类蛋白质编码基因数目更新到了19,000个;比最近注释的基因少1700个,远低于最初估计的100,000个。相关研究结果发表在最近的国际著名学术期刊《人类分子遗传学》(Human Molecular Genetics),得出结论认为,几乎所有这些基因,都有早于5000万年前灵长类动物出现的祖先。
“缩小人类基因组”,这就是Valencia描述多年来他们对人类基因组中蛋白质编码基因数目的不断修正,最终在当前的研究中缩减到大约19,000个人类基因。他补充说:“基因组的编码部分(产生蛋白质)是不断活动的。几年前没有人能想象,这么小数量的基因,能制造出如此复杂的东西。”
科学家们首先分析蛋白质组学实验;蛋白质组学是检测蛋白质分子最有力的工具。为了确定人类蛋白质图,研究人员整合了来自七项大规模质谱研究、50多份人体组织的数据。Valencia说:“这样做,是为了验证哪个基因真正产生蛋白质。”
少于10个基因能区分人和小鼠
研究发现了稍多于12,000个蛋白质,研究人员将这些蛋白质定位到基因组上的相应位置。他们分析了人类基因组中被注释的几千个基因,但是这并未出现在蛋白质组学分析中,Tress得出结论:“其中1,700个我们认为会产生蛋白质的基因,因为各种原因没有产生蛋白质,或者是因为它们没有表现出任何蛋白质编码特征,或者是因为它们阅读框的保守性不支持蛋白质编码功能。”
来自研究的一个假设是,超过90%的人类基因会产生蛋白质,这些蛋白质起源于亿万年前动物王国的后生动物或多细胞生物;对于那些起源早于5000万年前灵长类动物出现的基因来说,这个数字超过了99%。
研究人员称:“我们的数据表明,人类和灵长类动物在基因和蛋白质水平上的差异非常小。”本文共同作者、Valencia 实验室的研究人员David Juan称:“将人和小鼠区分开的基因数目,甚至少于10个。”与500多个具有当前注释中发现的灵长类起源的人类基因相反。研究人员得出结论:“灵长类动物之间的生理和发育差异,很可能是由基因调控引起,而不是问题蛋白质的基本功能差异造成的。”
以少胜多
人类复杂性的来源,更多地在于基因如何使用,而不是基因的数目,在于蛋白质中发生的成千上万的化学变化,或者在于通过基因组非编码区控制这些蛋白质的生产,这包括90%的全基因组,在最近的国际ENCODE项目中已经做出描述。
这项研究使人类基因的数目接近其他物种,如秀丽隐杆线虫——只有1毫米长的蠕虫。但是,Valencia不愿意作比较:“人类基因组是注释最好的,但是我们仍然认为,这1700个基因可能要重新注释。我们的研究表明,我们将不得不重新计算所有的基因组,不仅是人类基因组。”
这些研究结果是GENCODE项目的一部分,GENCODE是合并到ENCODE项目的一个财团,由世界各地的研究小组组成,包括Valencia研究小组,他们的任务是提供人类基因组中所有基因元件的注释。
Valencia称:“GENCODE正在讨论我们的数据,以并入到新的注释中。当这一切发生时,它将重新定义整个人类基因组图,以及它如何用于宏项目,如癌症基因组分析的项目。”
(生物通:王英)
延伸阅读:Nature报道第三个大型蛋白质组项目
生物通推荐原文摘要:
Multiple evidence strands suggest that there may be as few as 19 000 human protein-coding genes
Abstract: Determining the full complement of protein-coding genes is a key goal of genome annotation. The most powerful approach for confirming protein-coding potential is the detection of cellular protein expression through peptide mass spectrometry (MS) experiments. Here, we mapped peptides detected in seven large-scale proteomics studies to almost 60% of the protein-coding genes in the GENCODE annotation of the human genome. We found a strong relationship between detection in proteomics experiments and both gene family age and cross-species conservation. Most of the genes for which we detected peptides were highly conserved. We found peptides for >96% of genes that evolved before bilateria. At the opposite end of the scale, we identified almost no peptides for genes that have appeared since primates, for genes that did not have any protein-like features or for genes with poor cross-species conservation. These results motivated us to describe a set of 2001 potential non-coding genes based on features such as weak conservation, a lack of protein features, or ambiguous annotations from major databases, all of which correlated with low peptide detection across the seven experiments. We identified peptides for just 3% of these genes. We show that many of these genes behave more like non-coding genes than protein-coding genes and suggest that most are unlikely to code for proteins under normal circumstances. We believe that their inclusion in the human protein-coding gene catalogue should be revised as part of the ongoing human genome annotation effort.