-
生物通官微
陪你抓住生命科技
跳动的脉搏
迄今最详细基因功能图谱六大内容
【字体: 大 中 小 】 时间:2012年09月07日 来源:生物通
编辑推荐:
一个聚集了422位科学家的国际团队在经过十年的努力后,完成了解析基因组剩余部分(非编码区域)的工作,公布在Nature等多份期刊上。这个庞大研究的重点是什么呢?
今天(9月6日),一个聚集了422位科学家的国际团队,在经过十年的努力后,完成了解析基因组剩余部分(非编码区域)的工作,公布在Nature等多份期刊上。
这项研究有几个方面的重要性,它们分别是:
1.数字说话
2.基因里有什么?
关于基因,简单来说就是一条能被翻译成蛋白的DNA序列。但从ENCODE的数据来看,这个定义已经不再有意义。存在很多转录,可能比任何人意识到的都要多,其中一些连接了之前认为无关的两个基因。这意味着,这些基因的边界在扩大,它们之间的间隙缩小或消失。
Gingeras说,这个“间隔区”空间已经缩水了四倍。 “曾经一度被称为X基因的,现在与Y基因融合,”他说。随着这样的界限模糊化,Gingeras认为把一个基因看成是基因组中的特定点,或作为其基本单位的观点,已经不再有意义了。相反,这一定义应该属于RNA转录。“基因组的组成成分是转录,”Gingeras说。 “它们是基本单位,受突变和选择的影响。”
3.新的疾病研究观点
在过去的十年中,遗传学家着手于一个看似源源不断的全基因组关联研究(GWAS),并抛出了一个长长的清单,与不同条件下风险有关的单核苷酸多态性(SNP)位点与。ENCODE研究组则绘制出了所有这些GWAS识别出的SNPs。
研究人员发现,只有12%已知单核苷酸多态性位于蛋白编码区域内。他们还发现,相比于随机SNPs,疾病相关的SNPs有60%以上,可能定位于非编码区域,这些区域经ENCODE识别出功能,尤其是那些启动子和增强子。这表明,许多这些突变都受到不同基因活性的调控,这为了解它们是如何影响我们的疾病风险,提供了许多新鲜的线索。“这是一个虽然不好,但真实的情况,”Birney说。
ENCODE研究人员还发现了疾病相关的SNP位点和特殊DNA分子之间的新关联。例如,他们发现了5个SNPs会增加Crohn病的风险,这能通过一组称为GATA2的转录因子识别,“这不是Crohn病生物学家通过他们的方法发现的,”Birney说。““突然间,我们得到一种疾病和基础生物学之间的一个无偏倚的关联。”
“我们现在正在与许多不同的疾病生物学家,在他们的数据库中寻找”,他补充说,“从某种意义上说,ENCODE是从基因组入手,而GWAS研究工作则是从疾病入手”,到目前为止,该小组已确定了400个这样值得研究的的热点。
4.三维基因组
将基因组描述成一串字母会导致一个常见的误区:这是一个两维的线性实体。实际上,DNA就像一串珍珠,缠绕在称为组蛋白的蛋白上,然后这些复合物以一种精巧的三维方式扭曲,折叠和成环。这样相隔甚远的基因组元件,其实从物理位置来说,是邻居,并可以影响彼此的活动。
Job Dekker,麻省大学医学院一名生物信息学家,利用ENCODE的数据,绘制了三种不同类型细胞中仅仅百分一的基因组这种长距离相互作用,发现超过1000个这样的关联,“我想说,在基因组中,只有三维空间才能令其有意义”Dekker说。能获取ENCODE这些新数据“确实是未来基因组科学家们的难题,”他补充说。
5.数据分享
这些新公布的ENCODE数据庞大,分别在Nature, Genome Biology, 和Genome Research上以30篇中心论文的形式公布,除此之外,Science,Cell也会公布一些二级文章,所有数据都是免费提供的。
印刷版杂志无法承载如此巨大的数据,因此ENCODE研究小组设计了一种新的出版模式。在ENCODE门户网(http://www.encodeproject.org/),读者可以选择13个兴趣项之一,如增强子序列,并按照页面上的指示获得30篇主要论文中的相关内容,“无需把30篇文章全部读完,这样能找到想要读的,”Birney说。
这一研究小组还建立了他们称之为的Virtual Machine,这是一个一个可下载的程序,包括所有ENCODE科学家用以分析数据时的编码。任何研究人员可以下载几乎原始的数据,并在自己的论文中复制任何的分析。这是最根本的透明度。
“为了这些非常集约性的科学项目,必须有一个庞大的数据师来做正确的分析,”Birney说,利用Virtual Machine,“你完全可以一步步重复我们得到的数据。我认为这应该称为未来的标准。”
(生物通:张迪)
原文标题:
An integrated encyclopedia of DNA elements in the human genome
Architecture of the human regulatory network derived from ENCODE data
The accessible chromatin landscape of the human genome
Architecture of the human regulatory network derived from ENCODE data
Landscape of transcription in human cells
The long-range interaction landscape of gene promoters