-
生物通官微
陪你抓住生命科技
跳动的脉搏
隐藏在基因组中的遗传信息
【字体: 大 中 小 】 时间:2006年06月28日 来源:遗传杂志
编辑推荐:
曹更生1,2,柳爱莲2,李宁1
(1.中国农业大学农业生物技术国家重点实验室,北京100094;2.河南大学生命科学学院,开封475001)
Exploration of the hidden layers of genome
CAO Geng-Sheng1,2, LIU Ai-Lian2, LI Ning1
(1. State Key Laboratories of Agrobiotechnology, China Agricultural University, Beijing 100094,China; 2.College of Life Science, Henan University, Kaifeng 475001, China)
Abstract: In recant years, geneticists have been exploring the less visible parts of genome more thoroughly. They are coming to realize that these much more layers of genomic information, distinct from the protein-coding genes, connect in surprisingly deep and potent ways to growth and development in the high eukaryotes. This article reviews a number of startling observations about the extent of non-protein-coding RNA transcriptions、DNA methylation and covalent histone modifications in the complex organisms.
Key words:non-protein-coding RNA; DNA methylation;covalent histone modifications
从DNA双螺旋结构模型提出至今,50多年来,分子生物学取得了一系列令人瞩目的成就, 尤其是人类基因组草图正式发表这一里程碑事件,加速推动了生命科学向纵深方向进一步发展。到目前为止,至少有125个物种(小鼠、线虫、果蝇、河豚、水稻等)基因组测序工作已经完成,另外还有580个物种的基因组计划正在进行,科学家试图比较研究多个物种的基因组序列来破解生命密码,揭示生物体生长、发育、进化的规律。然而,科学结论往往超出人们想象,科学的每一次进步都在对以前理论进行修正、完善和补充。近年来,科学家们发现了大量隐藏在DNA序列之中或之外更高层次的遗传信息,使遗传学家不得不重新审视以前“根深蒂固”的生命科学规律,例如,多年来分子生物学领域公认的中心法则便遇到了前所未有的挑战,同时,基因这一最基本的概念似乎也需要修正。目前认为,这些高层次基因组信息主要包括非编码RNA(non-coding RNA)、DNA甲基化和组蛋白共价修饰等。
现在,科学家虽然还不能清楚地揭示所有隐藏的遗传信息,但研究发现至少有三个层次的基因组信息与编码蛋白质的基因组信息有所不同。新发现的第一个层次的基因组信息是包含于DNA序列之中的非编码RNA序列。以前,遗传学家发现仅有2%的DNA基因组编码蛋白质,因此,认为其余98%的基因组是进化中的垃圾(junk),在遗传上发挥的作用不大,它们不能编码任何蛋白质,只是生物进化残留的痕迹。但近年大量的研究发现,多种非编码RNA具有多种生理活性,而且它们在动植物生长发育及人类健康中都起着重要的作用,因此,它们是“隐藏在垃圾DNA中的钻石”,它们的存在极大地丰富了基因组所蕴含的功能信息。第二、第三个层次的基因组信息则属于表观遗传修饰[4]范畴,DNA甲基化是第二层次的基因组信息,大多数看家基因的启动子和第一外显子都具有可被甲基化的CpG岛,生物体通过对基因差异甲基化区(differentially methylated region)的甲基化来调节基因的表达,CpG岛的甲基化一般导致基因的沉默。组蛋白共价修饰属于第三层次的基因组信息,组蛋白是染色体基本结构核小体的重要组成成分,其N末端氨基酸残基的共价修饰可将遗传信息储藏在染色体结构中,并通过调节基因的表达状态保证生物发育沿着正常方向进行。表观遗传修饰的存在,说明基因表达的改变并不一定是由DNA序列改变引起,而在DNA序列之外还有许多因素影响基因的表达。
1 中心法则面临的挑战
中心法则认为遗传信息从DNA流向RNA再流向蛋白质,组成蛋白质的氨基酸有20种,远远多于组成脱氧核酸的四种碱基。蛋白质多种多样,几乎执行着生物体的所有功能。因此,几十年来,人们一直认为蛋白质不仅参与生物体的组织和器官的组成,还可作为酶来催化调节生物体的各种代谢活动,并与特异的DNA 或RNA序列结合以调节基因的表达,维持生命活动有条不紊地进行。其实,这只是人们认识到的基因组信息最基本层次。基于此,遗传学家曾预测人类至少有10万个编码不同蛋白的基因,但通过基因组比较发现,人类的基因大约只有27000个,与其它脊椎动物相似[5,6],这远远少于人们的估计。尽管由于mRNA的可变剪接可使蛋白质种类增加一些,但不同物种编码的蛋白质相当保守,从蛋白质水平讲,它不足以说明物种的复杂性和个体表现出来的差异。例如,大约99%的人类蛋白质在小鼠中能找到它的类似物,甚至许多人类蛋白质在结构和功能上与一些无脊椎动物也相似;人类基因组序列在个体上水平上有6百万个(0.1%)碱基差异,而编码蛋白的基因突变仅有2万个,这些突变大多是不影响蛋白质氨基酸序列的无效突变[8]。另一方面,越来越多的证据表明,许多RNA“基因”具有明确的生理功能,但却不编码任何蛋白质,它们仅是以RNA形式发挥功能,而且这些非编码RNA的数量似乎与物种的复杂性相关[9]。同时,生物学家们还发现另一些与中心法则相悖的遗传现象,如同窝出生纯种小鼠的毛色不同、同卵双胞胎对疾病易感性的差异、克隆动物效率低下等等,这些差异并不是因为DNA序列不同造成的,而是表观遗传修饰(epigenetic modification)在起作用,这使科学家不得不以一种全新的视野来理解生命现象。
2 基因组中的非编码RNA(ncRNA)
非编码RNA主要来源于内含子和转录的基因间序列,它们虽然不能被翻译成蛋白质,但其本身却具有多种生理功能,因此,有些科学家称之为RNA基因,以区别不同功能的mRNA、tRNA及rRNA。在人类基因组序列中,编码蛋白的前体mRNA含有95%内含子序列,此外,大约有一半甚至三分之二的转录产物为非编码RNA。研究已证实,大量非编码RNA在生物体生长发育等许多生命活动中起重要作用,同时也呈现出时间和空间的差异。非编码RNA的普遍性与重要性远远超过以前想象。 表1列举出近年来发现的非编码RNA的作用和功能。
2.1 内含子(intron)
真核基因组中含有大量的内含子序列, 目前已有证据表明,前体mRNA的内含子可能由自我剪切Ⅱ型内含子进化而来[11],它们不仅具有相似的剪切机制,还具有可移动和转座的功能。内含子很可能参与了RNA介导的细胞调节功能。内含子可调节真核生物mRNA的选择性剪接,而且还可产生有功能的活性RNA。在高等生物中,许多核内小RNA来源于编码核糖体蛋白和细胞周期蛋白的原初转录物,如已为人们所知的非编码RNA,Bsr。最近还发现,内含子还可形成发夹状的microRNA,利用RNAi机制调节影响其它基因的活性。
2.2 基因间序列
实验发现,许多基因间DNA序列可转录成非编码RNA。象蛋白质一样,这些RNA转录物可与RNA、DNA、蛋白质甚至其它的化合物相互作用,在正常生命活动中起着不可估量的调节作用。
2.2.1 假基因
通过分析基因组序列发现,基因组中存在着与基因数量几乎相等的假基因,假基因是功能基因的缺陷拷贝。在过去的几十年中,假基因一直被认为是分子化石,是进化中基因突变的遗迹。而2003年5月日本学者Hirotsune的报导第一次揭示了假基因的功能。
Hirotsune等人将果蝇的sex-lethal基因转移到小鼠体内,大多数小鼠表现正常,但有一个品系的小鼠在幼年期全部死亡。进一步研究发现,sex-lethal基因插入到makorin1-p1假基因中部,破坏了该假基因的转录。makorin1-p1是makorin1基因的假基因。如果将假基因makorin1-p1敲除,makorin1基因将被关闭。这说明,基因makorin1的表达受到其同源序列假基因的控制。
实例 功能
E.coli 6sRNA 184nt 调节启动子使用
人7skRNA 331nt 抑制转录延伸因子P-TEFb
人SRARNA 875nt 类固醇受体辅助激活
人XistRNA 16,500nt X染色体失活
人AirRNA 100,000nt 常染色体基因印记
人 端粒RNA 451nt 断粒酶核心,端粒复制模板
E.coli RNAseP 377nt RNaseP中催化成分
人 U2snRNA 186nt 剪接体核心成分
酿酒酵母 U18C/DsnoRNA 102nt 导致靶RNA2’-O甲基化
酿酒酵母 snR8H/ACAsnoRNA 189nt 导致靶rRNA的假尿苷化
T. brucei gCYB gRNA 68nt 导致RNA编辑中U的加入与去除
E.coli RyhB sRNA 80nt 靶mRNA降解?
真核生物 miRNA 大小不明 靶mRNA降解?
E.coli Oxy S RNA 109nt 阻止核糖体的结合而阻断翻译
E.coli DsrA sRNA 87nt 阻止mRNA形成错误的二级结构而激活翻译
线虫 lin-4 miRNA 22nt 与靶mRNA3’端结合而阻止翻译
E.coli tmRNA 363nt 给合成的多肽打上降解标签
E.coli 4.5sRNA 114nt 信号识别颗粒组分,协助蛋白跨膜运输
2.2.2 反义RNA
与假基因功能类似,反义RNA是能够与靶mRNA互补的RNA分子。正常情况下,DNA双链只有一条链能转录成RNA,另一条链不转录,生物学家普遍认为这条链作为备份,在DNA修复中起作用。但有时,这条备份链也能转录出反义RNA。以前观念认为,细菌和植物能产生反义RNA,而高等哺乳动物基本不能,但2003年4月Galit Rotman等人对人类基因组数据库进行分析,其结果对这种假设提出了质疑。他们发现人类至少1600个基因有与其匹配的反义RNA。这些反义RNA可能与其mRNA结合来抑制基因的表达。他们甚至推测反义RNA象为人熟知的RNAi机制一样,是基因组内固有的监督系统。
2.2.3 MicroRNA
拟南芥叶的形态建成是受另一种活性RNA的调节,它既不属于假基因也不属于反义RNA,而是一种称为MicroRNA的小分子RNA,它能够自我折叠成发夹状结构,通过RNAi或类似于RNAi的机制起作用。Weigel研究小组发现了一个称为JAW的基因位点,JWA序列与TCP基因家族的几个编码蛋白基因的序列相匹配,TCP基因家族能够控制拟南芥叶片的形态建成。JWA位点产生的MicroRNA能够介导TCP基因家族的几个mRNA的切割,其中对TCP4mRNA的切割是叶片正常发育必须的。目前,在人类基因组中至少也发现了150个MicroRNA,它们在人体内具体的作用不十分清楚,但Krichevsky推测其在人脑的发育中起重要作用。
2.2.4 Riboswitch
Riboswitch是2002年发现的RNA的特殊形式,它充当RNA开关的作用[18]。Riboswitch含有编码和非编码成分,开始这种长的RNA折叠形成复杂的结构,它的非编码末端充当某一特殊化合物的敏感受体,当Riboswitch与靶受体的结合,则Riboswitch另一端(编码区)结构改变,这时Riboswitch处于开放状态,能象正常基因一样翻译出蛋白质。2003年8月,Breaker研究小组在Bacillus subtilis中发现至少有26个基因的表达受Riboswitch家族的调节。
3 表观遗传修饰(epigenetic modification)
第二、第三层次的基因组信息属于表观遗传修饰范畴,表观遗传修饰是近年来生命科学的重大发现和研究热点之一,它主要包括DNA甲基化与组蛋白的共价修饰。有证据表明一些表观遗传改变是可以遗传的。表观遗传修饰异常很可能是造成糖尿病、精神分裂症等许多复杂的疾病的根源,同时也是克隆动物高流产率及发育异常的主要原因。
3.1 DNA甲基化
真核生物基因组中存在着广泛的甲基化,DNA甲基化主要发生在CpG岛的5C上,其作用是导致基因的失活。一般说,DNA甲基化程度越高,这段DNA被转录成RNA并翻译成有功能蛋白质的可能性越小。甲基化作用好像是基因组用来防御寄生性遗传元件(parasitic genetic elements),如转座子转移的,而特殊的甲基化方式――印记现象可能只是甲基化作用的副产物。
3.1.1 基因印记
对于大多数基因来说,来自父本和母本的等位基因都同时表达和关闭。但是基因印记现象打破了这种平衡。基因印记是DNA甲基化造成的,有些印记基因,在来源于父本的基因组中表达,而来源于母本的等位基因不表达,另一些印记基因正好相反。某些印记基因也能产生活性non-codingRNA的基因。例如,山羊的“美臀”基因,这种有活性的RNA基因来源于母本 [19]。基因印记是动物正常生长发育必须的,特别在早期胚胎发育过程中起重要的作用。Igf2和H19是最先被发现的印记基因,Igf2为父源表达,而H19母源表达,它们之间有一个甲基化差异区(DMD),具有绝缘子功能。日本学者[20]将未成熟卵子基因组中的 H19和甲基化差异区一起删去,并与成熟卵子融合,孤雌生出有生育能力的小鼠,这是生物学家第一次用直接证据证实印记基因在胚胎发育中的关键作用。
3.1.2 DNA甲基化与转座子的稳定性
Bestor[21]认为大约45%的人类基因组序列是病毒基因片段,它们在进化过程中不断的复制自己,只是这些“自私”的DNA几乎全部被甲基化,一般情况下不呈现活性。2003年Jirtle等人用刺豚鼠(agouti mice)做了一个精彩的实验来显示甲基化和转座子间的联系。刺豚鼠毛色从黄色到黑色的变化是受一个寄生元件(parasitic element)控制的。一组怀孕的刺豚鼠饲喂正常食物,大约有60%后代毛发是黄色的;但是另一组刺豚鼠吃饲喂富含维生素B12、叶酸的甲基化的食物,高甲基化食物引起了后代毛色的变化,最后,60%的后代呈现褐色,这种现象可能是刺豚鼠转座子DNA甲基化程度增加的结果。甲基化防御系统是非常重要的,研究者将胚胎期的一个甲基化转移酶失活,使甲基化防御功能下降,导致许多转座子变得有活性,细胞中DNA的突变率增长了10倍。
3.1.3 DNA甲基化与癌症
肿瘤细胞通常有两种现象存在:一方面整个基因组甲基化程度很低,而另一方面某些抑癌基因又被错误地甲基化。研究者推测在细胞分裂过程中染色体甲基化程度越低,越容易发生功能异常,这可能是向癌变迈进的第一步。
Rudolph Jaenisch课题组2003年的工作支持了这一假设[23]。他们得到了先天缺乏甲基化酶的小鼠,对于大多数小鼠,至少有一个甲基化不充分的染色体变得不稳定,突变快速积累,80%的小鼠在8个月内死于癌症。
DNA甲基化程度过低能否引起癌症目前还没有定论,但已有证据表明,在肿瘤细胞中,抑癌基因错误的被甲基化,引起抑癌基因的低量表达,从而导致癌症的产生。这也是新兴抗癌药的理论基础。
3.2 组蛋白共价修饰
组蛋白是一组等电点大于10的碱性蛋白质,在进化上十分保守。组蛋白的共价修饰可通过影响组蛋白与DNA双链的亲和性,从而改变染色质的松散或凝集状态,来调节基因的表达。组蛋白共价修饰研究较为深入的是组蛋白乙酰化和甲基化。
3.2.1 组蛋白乙酰化
组蛋白乙酰化是由组蛋白乙酰转移酶(TACs)和组蛋白去乙酰化酶(HDACs)协调进行的,主要发生在组蛋白N末端的赖氨酸,组蛋白乙酰化呈多样性,核小体上有多个位点可提供乙酰化,但特定基因部位的组蛋白乙酰化和去乙酰化以一种非随机的、位置特异的方式进行。例如,IFN-β基因启动子附近组蛋白赖氨酸(H4 K8,H3 K9和K14)乙酰化,该表面能与特异的蛋白识别模块(protein recognition modules)结合。H4 K8修饰产生的特异信号是SWI/SNF复合物BRG1组分的识别结合面(binding surfaces),而H3 K9和K14修饰产生的信号是TFIID组分TAFII250的识别结合面。因此,这些特异的蛋白识别面代表了IFN-β启动子组蛋白乙酰化“密码”,并参与IFN-β转录激活作用的调节。
3.2.2 组蛋白甲基化
组蛋白甲基化是由组蛋白甲基化转移酶(histone methyltransferases)完成的,甲基化可发生在赖氨酸和精氨酸残基上,赖氨酸残基能够单、双、三甲基化,而精氨酸残基能够单、双甲基化,这就极大的增加了组蛋白修饰调节基因表达的复杂性。当前的证据表明,组蛋白精氨酸甲基化是一种相对动态的标记,精氨酸甲基化与基因激活相关,而H3和H4靶精氨酸的甲基化丢失与基因沉默相关。相反,赖氨酸甲基化似乎是基因表达调控较为稳定的标记,例如,H3 第4位的赖氨酸残基甲基化与基因激活相关,而第9位和第27位赖氨酸甲基化与基因沉默相关[25]。
3.2.3 其他组蛋白修饰方式
组蛋白除了乙酰化、甲基化修饰还有其他几种方式如磷酸化、腺苷酸化、泛素化、ADP核糖基化等等。这些修饰可能通过两种机制影响染色体的结构与功能。首先,这些修饰几乎都能改变组蛋白的电荷,因此改变了组蛋白与DNA结合的特性;第二,这些修饰能够产生蛋白识别模块(protein recognition modules)的结合表面,因此能募集专一蛋白复合物到它们的表面起作用。所以有人称这些能被专一识别的修饰信息为组蛋白密码,所有这些组蛋白密码组合变化非常多,因此,组蛋白共价修饰可能是更为精细的基因表达方式。
4 展 望
21世纪的生命科学以信息化和高通量为特色,可以想象她将如20世纪的物理学一样,在本世纪会有质的突破。2002年几个杰出的研究小组建立起Phenomix生物工程公司,他们以小鼠为材料,随机突变基因组,旨在研究这些突变对功能基因(编码蛋白的基因和RNA基因)的影响;2003年10月英国Singer实验室启动了五年的表观遗传学组(epigenome)计划,来绘制DNA上所有的甲基化位点。这个联盟宣布已经完成的与组织相容性复合物相关的100,000个甲基化标签,发现第6号染色体上有一部分与许多疾病相关。我们有理由相信,随着生物信息学、基因芯片和蛋白操作技术的发展和完善,通过两三代生物学家的不懈努力,在未来的几十年,人们将能成功破解基因组的各种遗传信息,揭开生物体的生长、发育、衰老和死亡之谜,并使之造福人类。但是,笔者认为至少有三个问题还值得进一步思考:(1)数量性状基因的鉴定方法。以前孟德尔遗传定律在鉴定质量性状基因起到了不可替代的作用,但用此定律解决数量性状的问题时,却存在着明显的缺陷。因此,有必要发展出一种具现代生物学特征的新方法来鉴定数量性状基因,而基因组计划的进行、生物信息学和高通量技术的发展,为发明这种方法提供了良好的契机;(2)免疫系统作为人类的防御屏障,在人类与环境的斗争中留下了诸多痕迹。所以免疫系统可作为研究表观遗传学的模式材料,研究环境变化造成的表观遗传修饰的改变,从而阐明表观遗传修饰在生物体生长发育中的调节作用[28];(3)由于表观遗传修饰具有潜在的遗传能力,这也意味着环境可作为一种积极因素,通过表观遗传修饰作用于生物体,并传递给后代,在进化的长河中,它也许是物种进化的动力之一,这种观念与达尔文进化论相悖,但可能使拉马克学说再次受到世人关注。
遗传 ISSN: 0379-4172 CN:11-1914/R 2004; 26(5) :714-720