真菌线粒体基因组大规模从头组装:从2695个物种中解锁隐藏的线粒体多样性
《Scientific Data》:De novo assembly of complete circular mitochondrial genomes from 2,695 fungal species
【字体:
大
中
小
】
时间:2025年12月19日
来源:Scientific Data 6.9
编辑推荐:
本研究针对真菌线粒体基因组(mitogenome)在公共数据库中严重不足的问题,开发了一套从SRA(Sequence Read Archive)数据中大规模从头组装(de novo assembly)完整环状线粒体基因组的流程。研究人员成功从12,902个真菌短读长测序数据中,为2,695个物种组装出完整线粒体基因组,将已知真菌线粒体基因组多样性扩大了近2.3倍,特别是在研究较少的Mucoromycota(11倍增长)和Zoopagomycota(8倍增长)门。该研究填补了真菌线粒体基因组学的关键空白,为系统发育、生态学和进化研究提供了宝贵资源。
在生命之树的庞大谱系中,真菌界(Kingdom Fungi)是一个极其多样且生态意义重大的王国,估计全球有200万到500万种真菌,然而已被描述的物种仅约15万种,不足其总估计多样性的5%。传统上,真菌物种的界定依赖于形态学特征,但随着分子生物学的发展,内部转录间隔区(Internal Transcribed Spacer, ITS)和18S核糖体RNA(rRNA)基因等基因区域被广泛用于真菌的分子分型和物种鉴定。然而,随着已知物种数量的增加,单基因条形码技术(DNA barcoding)在区分物种,尤其是在高分辨率水平上,显得力不从心。因此,分子真菌学家开始采用多位点序列分型(multi-locus typing)甚至全基因组测序(whole genome sequencing)来获得更高的分类学分辨率,这甚至可以达到亚种(sub-species)水平。
与大多数真核生物一样,真菌也携带染色体外的DNA分子,例如线粒体DNA(mitochondrial DNA)或质粒。这些染色体外DNA的拷贝数远超核DNA。线粒体基因组(mitogenome)以其紧凑的大小、高拷贝数和相对保守的基因含量,在阐明真菌系统发育(phylogenetics)、群体遗传学(population genetics)和进化动力学(evolutionary dynamics)方面发挥着重要作用。然而,在进行真菌全基因组测序时,线粒体基因组常常被忽略或有意地从下游分析中移除,或者被错误地组装为核基因组的一部分。
截至2024年6月,美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)的核苷酸数据库(nucleotide database)仅收录了3,774个完整的真菌线粒体基因组,代表1,114个物种,其中绝大多数属于子囊菌门(Ascomycota)和担子菌门(Basidiomycota),其他门的代表很少。相比之下,SRA数据库中有99,472个真菌基因组测序记录,来自4,994个物种,这是一个尚未被充分利用的资源宝库,潜在地可用于线粒体基因组的组装。
为了弥补真菌线粒体基因组与现有公共SRA数据之间的巨大差距,Mohamed S. Sarhan等人开展了一项大规模研究,旨在通过从头组装(de novo assembly)完整的真菌线粒体基因组,将当前的线粒体多样性扩展到新的类群。这项研究最终成功地从2,695个真菌物种中从头组装出完整的环状线粒体基因组,将已知的真菌线粒体基因组多样性扩大了近2.3倍,成果发表在《Scientific Data》期刊上。
研究人员首先从NCBI数据库检索已公开的完整真菌线粒体基因组。接着,他们查询SRA数据库,筛选出来源为DNA、文库布局为双端(paired-end)、平台为Illumina、策略为全基因组测序(WGS)的真菌数据集。通过生物信息学工具(如taxonomizr R包)进行分类学ID(taxID)映射,排除了那些已有线粒体基因组代表的物种所对应的SRA记录。
对于每个保留的SRA记录,研究团队使用fasterq-dump工具下载原始测序数据(fastq格式),然后使用fastp进行质控修剪。随后,使用seqtk将数据稀释至500万对双端读长(paired-end reads),并使用SPAdes进行从头组装。关键的线粒体基因组提取步骤使用GetOrganelle工具完成,该工具专门针对真菌线粒体基因组数据库(fungus_mt)进行搜索,并能识别出完整环状或支架(scaffolded)的基因组。对于支架基因组,研究使用200万对读长重复组装过程以提高完整性。组装出的线粒体基因组使用MFannot进行注释,并利用14个核心蛋白编码基因(Protein-Coding Genes, PCGs)的氨基酸序列,通过MAFFT、trimAl和FastTreeMP等工具构建最大似然(Maximum-Likelihood)系统发育树进行验证。
本研究新组装的线粒体基因组序列已保存在DDBJ/ENA/GenBank数据库的第三方注释(Third Party Annotation, TPA)区域,登录号范围为BK072095至BK074789。相关的数据文件,包括所有新组装基因组的FASTA文件、系统发育树文件以及包含登录号和分类学信息的表格文件,均在Figshare平台公开。
为确保新组装线粒体基因组的质量,研究人员采用了三重验证策略。首先,依赖GetOrganelle工具对基因组完整性和环状结构的判断。其次,基于MFannot注释结果,针对不同分类等级(低至目级)设定了基于核心蛋白编码基因(PCGs)数量的完整性经验阈值。例如,对于大多数真菌目,要求至少包含13个核心基因。最后,将所有通过筛选的新基因组与来自RefSeq和INSDC数据库的已知基因组一起进行系统发育分析。构建的系统发育树包含了总共4,012个基因组,新组装的基因组在系统发育树中都位于预期的进化支(clade)内,与已知基因组具有一致的进化关系,这从系统发育层面验证了组装结果的可靠性。
本研究的核心成果是从公共SRA数据中成功地为2,695个真菌物种组装出完整的环状线粒体基因组。这一努力使得公共数据库中可用的完整真菌线粒体基因组数量增加了近2.3倍,几乎相当于将已知多样性扩大了两倍多。这一成果极大地填补了真菌线粒体基因组资源的空白。
研究特别强调了对一些研究相对较少的真菌门类的覆盖。例如,对于毛霉门(Mucoromycota),可用的线粒体基因组数量增加了11倍;对于捕虫霉门(Zoopagomycota),增加了8倍。这种不成比例的增长表明,本研究有效地将研究焦点延伸到了传统上被忽视的真菌谱系。
新的数据集在多个分类学层级上引入了首次报道的线粒体基因组,包括15个纲(classes)、64个目(orders)、178个科(families)和544个属(genera)。这表明该研究不仅增加了已知物种的基因组数据,更关键的是开拓了全新的分类学领域,为这些群体的进化研究提供了前所未有的分子基础。
对新组装基因组的物种进行分类学分析显示,它们具有广泛的生态代表性。其中包括重要的人类病原体(如Cryptococcus tetragattii)、植物病原体(如Melampsora larici-populina)、食用蘑菇(如Suillus luteus)以及工业用真菌。这表明该数据集具有广泛的应用潜力,可用于研究不同生态功能的真菌的进化适应性和分子机制。
通过构建包含所有新组装基因组以及RefSeq和INSDC数据库中现有基因组的最大似然系统发育树,研究提供了一个全面的真菌界系统发育概览。新组装的基因组在系统发育树中均落在预期的进化支内,与已知基因组具有一致的亲缘关系,这从系统发育学的角度强有力地验证了从头组装结果的准确性和可靠性。
这项研究通过系统性地挖掘和利用公共SRA数据库中尚未被充分利用的短读长测序数据,成功地实现了真菌线粒体基因组资源的大规模扩展。所开发的生物信息学工作流程证明了对公共数据进行二次挖掘以释放隐藏基因组多样性的巨大价值。新组装的2,695个完整环状线粒体基因组不仅数量上显著增加了数据库的容量,更重要的是在分类学广度上实现了突破,特别是在那些以往研究匮乏的真菌门类中。这个庞大的数据集为未来深入的真菌系统发育学、进化生物学、生态学以及宿主-病原体相互作用等研究奠定了坚实的基础。同时,该研究也为在其他真核生物谱系中开展类似的大规模线粒体基因组挖掘工作提供了一个可借鉴的模型。总之,这项工作是对真菌基因组资源库的一项重要贡献,它将极大地推动真菌多样性、进化和功能的研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号