《Scientific Data》:Chromosome-level reference genome assembly for the protected resource plant, Zenia insignis
编辑推荐:
本研究针对近危植物Zenia insignis的基因组研究需求,成功组装并注释了其染色体水平的参考基因组,为豆科植物的系统发育研究提供了重要资源,具有重要的生态和经济意义。
Zenia insignis(隐花豆)是一种具有重要生态和经济价值的树种,属于豆科(Fabaceae)蝶形花亚科(Dialioideae),主要分布于中国南方及越南北部。然而,目前对于该物种的基因组学研究还相对较少,这限制了对其系统发育关系以及适应性特征的深入理解。为了填补这一空白,中国科学院昆明植物研究所的研究人员开展了针对Zenia insignis的染色体水平参考基因组组装与注释研究,旨在为豆科植物的系统发育研究提供高质量的基因组资源,并推动对该物种保护与利用的研究。
研究人员通过整合多种测序数据,包括PacBio连续长读长(CLR)、二代测序(NGS)数据、Hi-C数据以及全长和NGS转录组数据,成功组装出Zenia insignis的参考基因组。该基因组总长度为352.84 Mb,contig N50为6.02 Mb,97.71%的序列被组装到14条伪染色体上。BUSCO评估的完整性为97.30%,LAI指数评估的连续性为14.57,表明这是一个高质量的参考基因组。此外,研究人员还获得了Zenia insignis的质体基因组序列,长度为159,390 bp。
在研究过程中,研究人员首先从昆明植物园采集了Zenia insignis的新鲜嫩叶样本,并通过改良的CTAB法提取基因组DNA,使用Trizol试剂提取总RNA。随后,利用多种测序平台和技术,包括PacBio单分子实时(SMRT)测序、NGS测序和Hi-C技术,生成了大量的测序数据。通过多种组装软件(Falcon、Canu和Flye)对长读长数据进行组装,并利用短读长数据进行校正,最终通过Hi-C数据将组装的contig锚定到染色体水平的scaffold上。此外,研究人员还利用RepeatModeler和RepeatMasker软件对基因组中的重复序列进行了注释,发现重复序列占基因组的35.47%,其中长末端重复序列(LTR)最为丰富,占9.03%。通过结合从头预测、基于同源性的预测和转录组辅助预测的混合方法,研究人员共预测出33,322个基因模型,并利用eggNOG-mapper工具对蛋白编码基因进行了功能注释,成功注释了30,143个蛋白编码基因,占总基因模型的90.46%。
该研究为Zenia insignis的保护和利用提供了重要的基因组学基础,其高质量的参考基因组将有助于进一步揭示该物种的适应性进化机制,为豆科植物的系统发育研究提供重要的参考,并为该物种的育种和保护策略的制定提供科学依据。研究成果发表在《Scientific Data》杂志上,为相关领域的研究者提供了宝贵的数据资源和研究思路。
在技术方法方面,研究人员主要采用了以下几种关键技术:一是PacBio CLR测序技术,用于生成长读长数据,以提高基因组组装的连续性;二是NGS测序技术,用于生成短读长数据,用于基因组组装的校正和基因预测;三是Hi-C技术,用于将组装的contig锚定到染色体水平的scaffold上,实现基因组的染色体水平组装;四是RepeatModeler和RepeatMasker软件,用于对基因组中的重复序列进行注释;五是基于从头预测、同源性预测和转录组辅助预测的混合方法进行基因预测,并利用eggNOG-mapper工具进行功能注释。
研究结果表明,Zenia insignis的基因组具有较高的完整性和连续性,其重复序列占比较大,其中LTR元素最为丰富。通过基因预测和功能注释,研究人员获得了大量的基因模型,并对其功能进行了初步解析。这些结果为进一步研究Zenia insignis的系统发育关系、适应性进化机制以及开发利用提供了重要的基因组学基础。
总之,本研究成功组装并注释了Zenia insignis的染色体水平参考基因组,为豆科植物的系统发育研究提供了重要的参考资源。该基因组的高质量组装和注释将有助于推动Zenia insignis的保护和利用研究,为相关领域的研究者提供了宝贵的数据和研究思路。