-
生物通官微
陪你抓住生命科技
跳动的脉搏
编程菜鸟的理想基因组分析平台
【字体: 大 中 小 】 时间:2016年01月25日 来源:生物通
编辑推荐:
对于那些毫无编程背景的生物学研究者来说,衔接多个生物信息学工具是一件相当头疼的事情。加州大学、Broad研究所和斯坦福大学的研究团队日前在Nature Methods杂志上发布了GenomeSpace。这是一个编程菜鸟们梦寐以求的云上平台,关联了二十多种生物信息学软件包和资源,让基因组数据分析显得异常简单。
生物编辑:近年来基因组测序技术出现了迅猛的发展,测序通量在不断地提高,而测序成本在持续下降。然而,海量测序数据的产生也给数据分析带来了不小的挑战。
对于那些毫无编程背景的生物学研究者来说,衔接多个生物信息学工具是一件相当头疼的事情。加州大学、Broad研究所和斯坦福大学的研究团队日前在Nature Methods杂志上发布了GenomeSpace。这是一个编程菜鸟们梦寐以求的云上平台,关联了二十多种生物信息学软件包和资源,让基因组数据分析显得异常简单。研究人员正在为各种基因组分析开发和征集相应的“配方”,以便编程菜鸟们更好的解读基因组数据。
“新测序技术生成的数据比十年前多得多,数据分析方法也应当变得更加强大,”文章通讯作者Jill Mesirov教授说。“目前只有少数生物医学团队具备足够的专业知识,将正确方法和最佳途径用于自己的数据,并由此解决自己的研究问题。”
让多个分析工具一同工作,需要编写转换和传递数据的短程序,研究者没有一点编程技能是搞不定的。现在GenomeSpace承担了这项工作,该平台以用户友好界面做到了软件的无缝衔接,包括我们常用的基因组数据分析工具,比如Cytoscape、Galaxy、GenePattern和Integrative Genomics Viewer (IGV)。由于其中一些工具本身就整合了其他工具,GenomeSpace实际上为人们提供了数百种生物信息学分析。
此外,GenomeSpace还为使用者提供了浅显易懂的“配方”,指引用户以正确的顺序使用工具,从原始数据中提取自己想要的信息。GenomeSpace目前提供有13个配方,平台开发者正在邀请用户贡献更多的解决方案。
“没有哪个实验室可以炮制出所有的正确配方,众包模式将使GenomeSpace对非编程背景的研究者们更加实用,”加州大学圣地亚哥分校的Michael Reich说。
让我们通过一个例子来看看GenomeSpace究竟怎么用。如果我们想了解白血病干细胞与正常白细胞前体之间差异性表达的基因,以及这些基因背后的生物学机制。我们只需要在GenomeSpace中简单上传基因表达数据和其它相关信息,然后照着GenomeSpace为这类问题特别制定的配方操作,用GenomeSpace中的两个工具处理数据。GenePattern会给出这两种细胞之间表达差异最大的50个基因,Cytoscape则分析这些基因的相关蛋白如何在网络中相互作用,揭示肿瘤或正常细胞特异性基因的作用。
GenomeSpace提供的这些信息,可以帮助研究者们更好的理解白血病发展,鉴定潜在的新治疗靶标,Reich说。
对于大部分生物学研究者来说,生物信息学还是一个比较陌生的领域。传统教学方式主要针对的是基础的科学原理和实验方法,很少涉及计算机编程和数据统计。然而在进行大数据研究的时候,我们往往需要自己编写一些程序。如果一不小心犯了错,就有可能危及数据本身。
2015年8月,The Scientist杂志联系了几位科学程序员,介绍了他们所使用的工具,探讨了生物信息学菜鸟所需的一些训练。(更多详细信息参见:如何从零开始掌握生物信息学分析)
宏基因组研究通常是从环境中收集微生物和病毒样品,然后将这些样本破碎,把它们的基因组DNA降解成片段,最后通过测序仪进行分析。宏基因组分析比一般的基因组分析需要更多的借助计算机技术,因为宏基因组分析处理的是不同基因组的混合物,而不是单纯的同质微生物种群。宏基因组分析产生的数据比一般基因组分析多得多,这是这一研究领域面临的一大挑战。2014年08月,The Scientist杂志汇总并介绍了一些用于微生物基因组数据分析的新技术与新软件。(更多详细信息参见:微生物与病毒宏基因组最新技术方法汇总)
2016年1月,Nature Genetics杂志发布了一个革命性的计算工具,能够准确预测将一种人类细胞转变为另一种类型所需的细胞因子。这对细胞重编程和再生医学的进一步发展有重要意义。确定细胞转变所需的因子是一个时间长、成本高的过程,需要进行大量的反复试验。正因如此,该步骤成为了细胞重编程领域的一个主要障碍。重编程因子预测工具Mogrify解决了这个问题,能为任何指定的细胞转变提供最佳的细胞因子组合。(更多详细信息参见:细胞重编程迎来革命性生物信息学工具)
生物通编辑:叶予
生物通推荐原文:Integrative genomic analysis by interoperation of bioinformatics tools in GenomeSpace.