-
生物通官微
陪你抓住生命科技
跳动的脉搏
中国科学院院士李衍达呼吁:加强生物信息数据资源整合研究
【字体: 大 中 小 】 时间:2002年07月11日 来源:
编辑推荐:
近日,中国科学院院士、清华大学生物信息研究所智能技术与系统国家重点实验室主任李衍达教授,在“第二届中国生物信息学大会”上指出了生物信息数据资源中目前存在的几个主要问题。
这些问题包括:数据库中存在大量数据冗余以及数据错误;存储信息的数据结构存在很大的差异,包括文本文件、关系数据库、面向对象数据库等等;缺乏统一的数据描述标准,信息查询方面大相径庭;许多数据信息是描述性的信息,而不是结构化的信息标示。
李衍达院士认为,不同数据库的类型不同,返回给用户的类型也不尽相同,因此在处理这些数据的时候需首先熟悉不同的数据格式,并且要将这些格式统一。整合生物信息数据资源有着非常重要的意义。它可以为研究人员节省许多数据转换之间的工作,促进数据共享;可以提供一个标准化的查询标准,从而克服了不同的生物数据库数据间结构、信息提取过程中的不统一的问题,利用生物信息集成搜索系统提供的统一的数据查询界面,可以对数百种数据库进行统一查询;可以将不同数据库中彼此联系的信息整合在一起,形成一个构架于这类数据库之上的数据集成平台,从而方便了对数据库的信息挖掘。
据李衍达院士介绍,生物信息学是20世纪80年代末随着人类基因组计划而启动的一门新兴的交叉学科,它的主要任务之一就是组织和分析呈指数增长的生物学数据。近年来,各国科学家通过合作已经开发出了多个不同类型的数据库,涵盖的主题包括序列、基因组图谱、二级结构、三维结构等等,数量达到511个。
摘自 科技之光