二十世纪结构生物学的兴起对推动生物大分子尤其是蛋白质的功能结构的研究有很大的作用。人类基因组学大概涉及30亿个碱基对,其中具重要性的蛋白质大概有10万。随着人类基因组计划完成,当前一大难题是基因本身并不具有信息功能,而是通过蛋白质来体现。而这些基因所表达的蛋白质绝大多数是未知的。所以后基因组时代最重要的工作是怎么破译基因组全部的遗传信息,然后利用当中的信息帮助我们解决人类的健康问题。由于这个问题的提出,兴起了蛋白质组学
(Proteomic) 和结构基因组学 (Structural Genomic),研究基因组中全部基因功能和编码的蛋白质结构与功能关系。二十一世纪后基因组时代的生物学具有一个特点,既是宏观,又是微观。宏观是不仅像以往只注重单个蛋白质的结构和功能,而是包括从整体出发,例如一整个细胞,病毒或细菌里面所有基因和蛋白质的相互作用,关系和每个蛋白质的功能。
这样,蛋白质组和结构基因组之间有什么关系?有什么共同和不共同点?蛋白质组学的重点在于了解生物体,组织或细胞里面全部蛋白质的表达谱,特别是在病态和正常状态下的表达差异,以及蛋白质间的相互关系和结构功能,主要通过双相电泳,质谱或其他手段做研究,但是这并不涉及分子和原子水平。结构生物学和结构基因组的研究重点是在分子和原子水平来研究蛋白质间的相互关系和结构功能。蛋白质有三级结构和活性中心位点的问题,化学反应只是发生在很局部的地方,有需要在分子和原子水平透彻了解其中的作用。根据预测,蛋白质的结构大概有2000种不同的折叠类型,3000-5000蛋白质超家族。现在蛋白质数据库
[Protein Data Bank (PDB)] 中有20317个已知的蛋白质结构,当中大概有800种不同的折叠类型,1000蛋白质超家族。
|
|
结构基因组计划是在基因组全源信息指导下,大规模测定和分析生物有机体或细胞中蛋白质全体/群体的三维结构,包括医学上重要的蛋白质、以及病原体和模式生物中的蛋白质的三维结构。主要目标在10年内解出1万个蛋白质的三维空间结构,特别是那些未知空间结构类型、未知功能作用,无序列同源性的蛋白质的空间结构;这些信息将在网络、系统和复杂体系的水平上阐释相关蛋白质组/群在各种生命活动中的相互关系、功能和作用;利用这些信息从已知基因序列预测所有未知蛋白质结构和功能的有效方法和手段;提示未知功能蛋白质的可能功能;发展结构基因组研究的新方法和新技术,为以后更大规模的结构研究提供基础。
结构基因组的主要研究内容首先是基因组提供了生物体中的全面基因讯息,选择目标基因后利用重组手段进行表达,经过亲和层析的液相色谱手段进行纯化得到高纯度和品质的蛋白质,通过结构生物学的方法如X射线或核磁共振进行结构研究,再进一步反馈回去,帮助预测未知蛋白质的可能功能。目前85%结构研究是通过X射线去做,其中瓶颈在如何批量化构建克隆,蛋白质表达,分离纯化,特别是膜蛋白质,和如何促进高质量蛋白质晶体的生长。使用核磁共振做结构研究的技术难题除了高品质的蛋白质外,样品的同位素标记和长达1-数个月的数据分析时间都需要改进。
在国际上,结构基因组学可以说是二十一世纪生命科学研究的新前沿,蕴涵着大量与健康和医药密切相关的创新知识和商机,是一个在规模和影响上都可与基因组计划相比拟的新的重大科研计划,而且已被所有发达国家列为重大科学行动计划加以大力推动,大批国家实验室和研究型大学和大量企业单位参与。1998年在美国Argonne召开结构基因组学术研讨会,首次提出结构基因组研究计划。
|