北京生命科学研究院方赵庆课题组发布新的基因预测方法

【字体: 时间:2016年11月21日 来源:生物通

编辑推荐:

  11月17日在国际学术期刊《Genome Biology》发表的一项研究中,来自中科院北京生命科学研究院的研究人员,提出了一种方法——inGAP-CDG,可以利用基于密码子的de Bruijn图表,构建来自未组装转录组的完整长度的和非冗余的编码序列,从而简化了组装过程。这项研究的通讯作者是中科院北京生命科学研究院的赵庆方研究员。

  

生物通报道:当缺乏密切相关的参考基因组时,大多数的基因预测方法检测的是来自转录组组件的编码序列。这些方法的应用有限,因为高的转录本片段和广泛的组装错误,可能会导致多余的或错误的编码序列预测。11月17日在国际学术期刊《Genome Biology》发表的一项研究中,来自中科院北京生命科学研究院的研究人员,提出了一种方法——inGAP-CDG,可以利用基于密码子的de Bruijn图表,构建来自未组装转录组的完整长度的和非冗余的编码序列,从而简化了组装过程。这项研究的通讯作者是中科院北京生命科学研究院的赵庆方研究员。延伸阅读:山大泰山学者李国君教授再发转录组组装新法

对于有参考基因组的物种来说,通常是用基于同源性的方法来预测功能基因,这可能通过将靶序列对准到近缘种的原始基因,来识别基因。然而,参考数据库只代表一小部分现有的物种,从而限制了这些方法的使用。因此,依赖于已知参考基因组的基因预测方法,限制了我们对于新物种的功能性理解。当缺乏相关的参考基因组时,利用组装基因组序列的从头预测方法,从本质上说是比较困难的——由于训练数据集的质量。

另外,可以基于从头转录组组装来进行基因预测,这可大大降低数据集的大小,并增加获得的功能性信息。然而,这些方法都受到从头转录组组装质量的限制。因此,一种典型的转录组组装,可能会导致大量的片段碎片、冗余和含有错误的转录本。因此,来自组装转录本的同源基因数据集通常是不完整的、支离破碎的和冗余的,经常包含错误和异构体,从根本上歪曲了分子系统分析中对于直系同源的根本假设。

为了克服这个困难,并增加转录组数据集的效用,该研究小组开发了inGAP-CDG,这种算法可执行来自未组装转录组的基因构建。相比较以前的方法,inGAP-CDG可预测直接来自于未组装读数的开放阅读框(ORFs),利用一种监督式的支持向量机制(SVM),来过滤假阳性OPFs,并采用一种新型的基于密码子的de Bruijn图表,将纯化的OPFs组装成全长的CDSs。使用模拟的和真实的数据集,该研究小组证明,inGAP-CDG可显著提高基因识别的长度和精确度。inGAP-CDG是用C++实现的,并且源代码及完整文档是免费获取的:https://sourceforge.net/projects/ingap-cdg

(生物通:王英)

注:赵方庆,博士,研究员。中科院“****”入选者。2001年获青岛海洋大学海洋生物学、计算机技术及其应用专业学士学位。2006年在中国科学院海洋研究所获博士学位,研究方向为海洋微藻的进化基因组学。在此期间获得了中国科学院院长特别奖(2006),中国科学院优秀博士论文(2007),国家海洋科学技术奖一等奖(2012)。2006年7月至2010年底在美国宾州州立大学比较基因组学和生物信息学研究中心,从事计算生物学和基因组学的研究工作。2010年10月被中国科学院北京生命科学研究院聘为“****”研究员,主要研究方向是计算基因组学。现为中国科学院北京生命科学研究院科研部副主任、计算生物学联合研究中心秘书长、中国生物工程学会计算生物学专业委员会副主任委员、副秘书长。生物信息学国际刊物《Briefings in Bioinformatics》、《Hereditas》、《Genomics, Proteomics & Bioinformatics》编委。2012年获得中国科学院“科技创新交叉与合作团队”计划的资助,成立了“计算基因组学”交叉合作团队。承担国家自然科学基金3项,中科院知识创新工程资助课题1项和中科院院长特别奖基金1项。目前,以第一作者或通讯作者身份在生物信息学和基因组学领域国际刊物发表学术论文40余篇。

生物通推荐原文摘要:
A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes
Abstract:Most gene prediction methods detect coding sequences from transcriptome assemblies in the absence of closely related reference genomes. Such methods are of limited application due to high transcript fragmentation and extensive assembly errors, which may lead to redundant or false coding sequence predictions. We present inGAP-CDG, which can construct full-length and non-redundant coding sequences from unassembled transcriptomes by using a codon-based de Bruijn graph to simplify the assembly process and a machine learning-based approach to filter false positives. Compared with other methods, inGAP-CDG exhibits a significant increase in predicted coding sequence length and robustness to sequencing errors and varied read length.

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号