-
生物通官微
陪你抓住生命科技
跳动的脉搏
生命科学研究,俨然一场数字军备竞赛
【字体: 大 中 小 】 时间:2017年07月19日 来源:生物通
编辑推荐:
在当今的生命科学领域,随着研究的不断开展,越来越多的数据产生,也需要越来越多的存储空间。尽管研究也带来了一些重要的发现,但数据生成的速度已远远超过存储和分析的能力。《Bio-IT World》认为,生命科学研究如今就是一场数字军备竞赛。
生物通报道 在当今的生命科学领域,随着研究的不断开展,越来越多的数据产生,也需要越来越多的存储空间。尽管研究也带来了一些重要的发现,但数据生成的速度已远远超过存储和分析的能力。《Bio-IT World》认为,生命科学研究如今就是一场数字军备竞赛。
新一代测序(NGS)是这一现象的主要推动者。人类基因组的数据集通常在几百Gb。目前的数据显示,每7-9个月测序数据就会倍增,但测序仍处于起步阶段。2014年,预计有22.8万基因组被测序,到2017年,这个数字有望跳到160万。
这还只是问题的一部分。连接组学(connectomics)领域映射大脑中的神经连接,并依靠纳米分辨率的电子显微镜来呈现这些连接。目前最大的数据集已经达到100 TB。在速度更快、分辨率更高的电子显微镜的驱动下,数据集预计很快达到PB级。此外,预计三到五年内成像设备每秒将产生1 TB的数据。
再加上各种大规模项目,比如十万人基因组计划、人类微生物组计划等,数据总量将达到几百PB。因此,文章认为,生命科学研究的重担将从科学方法转移到分析框架和生物信息学。
过去,基因组测序的成本曾是最重要的成本因素。然而,随着NGS的到来,测序成本每年降低大约5倍。相比之下,分析成本每年只降低两倍,这使得它成为探索过程中最大的成本因素和最明显的瓶颈。同时,数据分析也是相当耗时的。超过1/4的研究人员需要花费7天以上的时间来分析数据。
科学探索的大敌
文章指出,科学研究严重依赖于计算和存储设备。大多数研究所使用高性能计算平台来改善获得结果的时间。然而,根据分析的不同,分析管道和工具大相径庭。这就给计算资源和存储系统带来了很大的负担,因为它们往往是为一般用途设计的,而不是为基因组分析而优化的。
值得注意的是,在过去的60年中,计算能力已经增加了万亿倍,而存储能力只是略微增加。计算和存储能力之间的这种失调对数据分析造成了严重影响,特别是在数据集继续增长的情况下。若必须在存储系统中检索数据,则科学探索无疑会被延迟。
输入/输出的滞后
文章还指出,目前有三个方面严重影响了生命科学研究:1) 数据可访问性;2) 系统可扩展性;3) 输入/输出的滞后。
现代数据中心通常有多个存储系统,每个都为特定用途而设计。这就会造成存储孤岛,使得数据难以从其他的系统访问,从而影响各机构之间的合作。此外,存储系统往往关系到特定的供应商或硬件设计,在这种情况下,它只能扩展到一定大小或性能水平。
同时,输入/输出(I/O)滞后也是一个大问题。现代计算机和存储设备使用固态闪存来减少I/O滞后。但是,软件滞后保持不变,并随着每次硬件升级而变得越来越突出。因此,软件栈已成为存储性能的新瓶颈。
如何解决?
文章认为,将数据移动到闪存上,可以减少存储滞后时间。通过使用InfiniBand带宽或服务器直连存储(DAS),可最大限度减少网络延迟。作者还提到了一个融合架构(CI)的概念,这是一个包含存储、网络和计算资源的单一设备。它克服了传统存储系统的许多局限性,因为存储数据的核心功能可在容量和性能上扩展。
总之,作者认为,采用融合架构和存储技术来最大限度提高数据可访问性,并有能力扩展到数十亿个文件和数百PB,同时尽量减少滞后时间,是未来成功的关键。(生物通 薄荷)