综述：利用全细胞DNA高通量测序数据进行植物线粒体基因组组装的研究进展

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Plant Biotechnology Journal 10.5

编辑推荐：

　　这篇综述系统评述了植物线粒体基因组（mtDNA）组装的挑战与策略，重点比较了三大算法（参考基因组RB、从头组装de novo和迭代延伸IME）及13种工具（如GetOrganelle/Oatk等）的性能，提出基于短读长（Illumina）和长读长（PacBio/Nanopore）数据混合组装的优化方案，为植物线粒体研究提供方法论指导。

植物线粒体基因组组装的挑战

植物线粒体基因组（mtDNA）的组装面临三大难题：首先，mtDNA仅占细胞总DNA的2-3%，且与核基因组（nuDNA）、质体基因组（ptDNA）存在频繁的序列交换，导致核线粒体假基因（NUMT）和线粒体质体转移序列（MTPT）干扰组装。其次，植物mtDNA大小差异悬殊（66 kb至18.99 Mb），结构复杂（环状/线性/分支形态），且种间保守性低。此外，mtDNA内高重复序列和动态重组导致个体内存在主次多种构型。

组装算法与工具性能比较

当前算法分为三类：

参考基因组法（RB）：依赖近缘物种参考序列，适用于群体研究，但易遗漏结构变异。
从头组装法（de novo）：采用重叠-布局-共识（OLC）或德布鲁因图（de Bruijn graph）算法，可发现新变异，但计算资源消耗大。
迭代延伸法（IME）：通过种子序列逐步延伸，适合小基因组，但易受重复区域阻断。

评估显示，Oatk在连续性（平均1-2 contigs）和完整性（A. thaliana评分97.78）上表现最优；GetOrganelle凭借短读长数据实现100%正确性；而混合组装工具如Unicycler能有效解决重复序列问题。

数据策略与关键技术

长读长数据：PacBio HiFi（错误率0.1-0.5%）适合跨重复区，但成本高；Nanopore（读长达4 Mb）更适合复杂结构。
短读长数据：Illumina经济高效，但需结合mate-pair文库弥补读长短的缺陷。
混合组装：先通过短读长构建框架，再用长读长填补缺口，可平衡成本与精度。

未来方向与标准化流程

作者建议优先实验富集mtDNA（如密度梯度离心），结合生物信息学过滤（k-mer频率分析）。评估时需综合"3C+C"指标：连续性（Contiguity）、完整性（24个核心基因检出）、正确性（CRAQ工具检测）及构型全面性（Comprehensiveness）。当前，植物线粒体泛基因组研究仍待拓展，以揭示不同物种的结构多样性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号