综述:利用全细胞DNA高通量测序数据进行植物线粒体基因组组装的研究进展

【字体: 时间:2025年07月31日 来源:Plant Biotechnology Journal 10.5

编辑推荐:

  这篇综述系统评述了植物线粒体基因组(mtDNA)组装的挑战与策略,重点比较了三大算法(参考基因组RB、从头组装de novo和迭代延伸IME)及13种工具(如GetOrganelle/Oatk等)的性能,提出基于短读长(Illumina)和长读长(PacBio/Nanopore)数据混合组装的优化方案,为植物线粒体研究提供方法论指导。

  

植物线粒体基因组组装的挑战

植物线粒体基因组(mtDNA)的组装面临三大难题:首先,mtDNA仅占细胞总DNA的2-3%,且与核基因组(nuDNA)、质体基因组(ptDNA)存在频繁的序列交换,导致核线粒体假基因(NUMT)和线粒体质体转移序列(MTPT)干扰组装。其次,植物mtDNA大小差异悬殊(66 kb至18.99 Mb),结构复杂(环状/线性/分支形态),且种间保守性低。此外,mtDNA内高重复序列和动态重组导致个体内存在主次多种构型。

组装算法与工具性能比较

当前算法分为三类:

  1. 参考基因组法(RB):依赖近缘物种参考序列,适用于群体研究,但易遗漏结构变异。
  2. 从头组装法(de novo):采用重叠-布局-共识(OLC)或德布鲁因图(de Bruijn graph)算法,可发现新变异,但计算资源消耗大。
  3. 迭代延伸法(IME):通过种子序列逐步延伸,适合小基因组,但易受重复区域阻断。

评估显示,Oatk在连续性(平均1-2 contigs)和完整性(A. thaliana评分97.78)上表现最优;GetOrganelle凭借短读长数据实现100%正确性;而混合组装工具如Unicycler能有效解决重复序列问题。

数据策略与关键技术

  • 长读长数据:PacBio HiFi(错误率0.1-0.5%)适合跨重复区,但成本高;Nanopore(读长达4 Mb)更适合复杂结构。
  • 短读长数据:Illumina经济高效,但需结合mate-pair文库弥补读长短的缺陷。
  • 混合组装:先通过短读长构建框架,再用长读长填补缺口,可平衡成本与精度。

未来方向与标准化流程

作者建议优先实验富集mtDNA(如密度梯度离心),结合生物信息学过滤(k-mer频率分析)。评估时需综合"3C+C"指标:连续性(Contiguity)、完整性(24个核心基因检出)、正确性(CRAQ工具检测)及构型全面性(Comprehensiveness)。当前,植物线粒体泛基因组研究仍待拓展,以揭示不同物种的结构多样性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号