如何从零开始掌握生物信息分析技巧

【字体: 时间:2015年08月07日 来源:生物通

编辑推荐:

  今天的世界大不同,表现在生命科学研究领域,就是一切都开始进入了大数据时代,无论是DNA序列,显微图片,还是质谱数据,研究人员都越来越需要对这些庞大的信息进行收集、整合、处理和诠释。

  

——自己动手为实验室研究添加灵感与动力

生物通报道:今天的世界大不同,表现在生命科学研究领域,就是一切都开始进入了大数据时代,无论是DNA序列,显微图片,还是质谱数据,研究人员都越来越需要对这些庞大的信息进行收集、整合、处理和诠释。

对于许多生物学家们来说,这并不容易完成,传统的科研培训方式主要集中于科学的基础原理和实验方法,而不是计算机编程和数据统计,因此当不少研究人员发现自己需要面对大量的数据量时,他们不知道如何处理这些问题。

目前其实也不乏现成的计算工具,而且不少都是免费的,但对于门外汉来说还是有些难。通常情况下研究人员还是需要深入了解这些界面并未友好的程序,才能运行,而这需要计算运行的深厚知识。

这就会导致研究人员在进行大数据研究的时候,不得不自己编写一些程序来进行可重复和得到证实的信息处理。然而这些过程也需要小心处理,一不留意犯错了,就有可能危及数据本身。

近期The Scientist杂志联系了几位科学程序员,了解他们所使用的工具是什么,如果是菜鸟需要进行哪些训练等。
 

选择一种语言

生物学家可以从各种各样的编程语言中选择一种,对于许多应用来说,随便选择一种都可以,不过目前最流行的可能就是Python 和 R。“就目前而言,这就像是科学研究的二重奏”,来自加州大学戴维斯分校的生物信息学家Vince Buffalo说,他刚完成了一本名为《生物信息学数据分析技巧》(O’Reilly Media Inc.)的新书。

Python 和 R相对来说都比较好用,但前者能完成多项任务,而后者主要针对的是统计方面的内容,两种语言都有其各自的使用用户群,因此具有特定功能预生成代码(prebuilt code)数据文库,比如以R语言为基础的Bioconductor Project (www.bioconductor.org),能为显微,测序和芯片数据提供模块。另外Python 公共文库也有:Anaconda (continuum.io/downloads)。

来自华盛顿大学基因组科学系的助理教授Cole Trapnell利用R语言完成了单细胞基因组数据集的处理,“单一细胞基因组学问题牵涉到许多的统计学方面的内容,R语言很适合。”

此外,还有一种受到大家认可的语言,那就C/C++(Julia (www.julialang.org)),这种语言特别合适用于那些相对较慢或内存密集型任务,Trapnell说。

如果能将Python的语法,R语言的图形灵敏性和C++的速度结合在一起,那就完美了,“这也就是说,这种代码很好编写,而且也很快,”来自加州大学戴维斯分校的遗传学副教授Titus Brown说,但这需要你花费大量经历掌握这些语言,他建议,可以选择你同事已经在应用的语言,这样他就能帮助你解惑。

未完待续……

 

(生物通:张迪)

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号