-
生物通官微
陪你抓住生命科技
跳动的脉搏
GenBank:风雨蹒跚20年
【字体: 大 中 小 】 时间:2002年10月15日 来源:
编辑推荐:
[生物通讯]理论物理学家Walter Goad 于2000年11月逝世后,他的妻子Maxine向宾夕法尼亚的美国哲学协会捐献了他的文件档案。
在本杰明·富兰克林于1743年建立的存放着美国科学和技术档案资料的案卷保管室里中,温度被密切控制着。Goad的实验室笔记记录、文凭和信件占满了6尺高的书架,这其中包括Los Alamos 国家实验室(Los Alamos National Laboratory ,LLNL)信笺上记载的自1980年来的备忘录,其中有一条是这样写的:“周一,5月12日上午10:30,Steve Simon邀请你共享蛋糕和咖啡以庆祝我们DNA序列文库中现已有100,000个碱基。
Goad在他美国能源部NNAL40年的生涯中,第一个15年全部贡献给了热核武器(他的一份文件标记着“氢弹备忘录”的字样)。他是在1982年10月开始筹建所谓的Los Alamos序列文库的,该计划获得了美国国家综合医学科学研究院(National Institute of General Medical Sciences,NIGMS)共2百万美元、为时5年的经费资助,当时这个数据库被命名为“GenBank,核酸序列数据库”。
1982年9月,Elke Jordan与NIGMS 计划指挥官Christine Carrico联名向《科学》杂志致函,宣布GenBank将于10月1日开始面向所有科研人员开放。杂志援引Goad 的话:“现在,美国和欧洲有数百名研究人员正以每年超过500,000个碱基的速度对DNA进行测序。我们的目标是把所有这些序列信息在鉴别3个月内录入到一个数据库。”
尽管他们那时如现在一样谦虚,但这个目标在当时看来对于Goad小组仅有的5名员工而言是过于雄心勃勃了。1982年2月加入Goad小组的该小组第一名“正式的生物学家”Christian Burks描述了工作流程作为对为什么设立这样一个目标的解释:“我们将所有有关文献,从文章中获得DNA序列信息--一行行A、T、C、G。我们会把这些文件挑选并全文影印出来,然后派一个人坐在计算机前将这些序列信息录入到数据库中。”
计划进行的前两年,GenBank的进度滞后了18个月。其它的员工实际上对计划的帮助很小。1985年3月的一份报告估计,一个序列从出现在文献上到收录到GenBank中,中间要耽搁10个月左右的时间。
“自该数据库问世以来,人们就希望序列信息能够尽可能快地收录其中,但这些数据却要等到近一年后才会在数据库中出现。”Burks回忆说。
当然,今天的GenBank已成为世界上的权威序列数据库。包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,并通过与日本DNA数据库(DNA DataBank of Japan,DDBJ),英国欧洲分子生物学实验室( the European Molecular Biology Laboratory ,EMBL)等另外两个序列数据库每天交换数据,已成为全世界分子生物学家不可或缺的研究工具。每天约有40,000用户登陆数据库网站搜索或下载GenBank内储存的200亿个碱基对。
当然,过去10年里,自世界上的测序中心大量涌现以及美国国家卫生研究院(NIH)成立国家生物信息中心(National Center for Biotechnology Information,NCBI )接管数据库的维护和管理以来,GenBank数据经历了最狂热的积累。
在LANL的第一个5年合同结束时,数据库中只有1500万个碱基对和14,000个条目。在第二个五年里,GenBank的容量翻了6倍,到1992年,数据库中已包含有1亿1百万个碱基对和78,000 个序列。在NCBI的管理下,GenBank现已扩展到了1992年的200倍。
但没人会否认Goad 和他的同事创立了现代生物学家最常用的信息资源这一荣誉。曾于20世纪80年代在GenBank工作的Fran Lewitter说,现在人们无法想象如果他们不能坐在计算机旁查询 GenBank,会是什么样子。
生物通编译自GENOMEWEB