一种专为从片段化DNA中组装线粒体基因组而设计的高效预处理工作流程

《Forensic Science International》:An efficient preprocessing workflow tailored for mitochondrial genome assembly from fragmented DNA

【字体: 时间:2025年12月19日 来源:Forensic Science International 2.5

编辑推荐:

  mtDNA组装流程MTAK通过参考序列对齐提取同源读数和末端碱基修复提升降解DNA的组装效率,在24个样本测试中使完整性提升且计算时间减少超十倍。

  
周永恒|高鹏|杨淑辉|徐彦春
中国哈尔滨市东北林业大学野生动物与保护区学院,邮编150040

摘要

线粒体DNA(mtDNA)因其高拷贝数、结构稳定性和母系遗传特性而成为法医遗传学、物种鉴定和保护研究中的关键遗传标记。准确的mtDNA基因组组装对于这些应用至关重要。然而,来自典型野生动物和历史样本(如博物馆标本、角化组织、环境样本和古代遗骸)的DNA往往高度片段化且受损,这限制了组装的效率和准确性。在此,我们开发了一种专门用于改善降解DNA mtDNA组装的预处理工作流程(MTAK)。MTAK包括两个核心步骤:(1)通过参考序列比对提取同源读段;(2)针对严重受损的5’和3’末端碱基进行针对性处理。该工作流程在24个质量不同的降解样本上进行了评估。MTAK显著提高了组装的完整性和准确性,尤其是在DNA损伤严重的样本中,同时将计算时间减少了十倍以上,并最小化了资源消耗。我们还实现了一个交互模型,以指导实现高效组装的最佳测序深度。这种方法与大多数现有的组装工具兼容,并显著提高了从具有挑战性的历史和野生动物样本中提取mtDNA的效果。

引言

线粒体DNA(mtDNA)是位于真核细胞线粒体内的环状基因组,与核基因组不同。其小尺寸、结构稳定性、高拷贝数、缺乏重组以及母系遗传特性使其成为系统发育学、物种鉴定、群体遗传学、进化生物学、疾病追踪和法医学等广泛学科中的宝贵分子标记[1]、[2]、[3]、[4]、[5]。高通量测序技术的出现极大地提高了mtDNA的提取效率,使得涉及多样化和大量样本的大规模研究成为可能[6]、[7]。然而,从非理想样本(例如粪便、角化组织或分解组织)中获取准确且完整的mtDNA序列仍然具有挑战性[8]、[9]、[10]、[11]。
在野生动物研究中,由于采样条件、样本可用性和保存方法的限制,获取高质量生物样本(如新鲜血液或软组织)往往不可行。从博物馆标本、古生物遗骸或暴露在环境中的材料中提取的DNA通常高度片段化,并且经常出现广泛的碱基修饰、链断裂和分子间交联[8]、[10]、[12]、[13]。尽管存在这些挑战,片段化的DNA——尤其是mtDNA——仍然是古代DNA研究、物种鉴定、野生动物保护和环境监测中的关键遗传信息来源[14]、[15]、[16]、[17]。然而,许多这些应用需要重建相对完整的线粒体基因组。
目前可用的线粒体基因组组装工具(如MitoFinder、NOVOPlasty、GetOrganelle和MitoZ)主要依赖于参考序列比对或从头组装策略,并且在高质量、高覆盖率的测序数据下表现良好[18]、[19]、[20]、[21]。然而,当应用于降解的DNA样本时(例如由于片段化、化学损伤等原因),它们的效率会不同程度地下降。以往的努力主要集中在优化组装软件参数或改进算法模型,以更好地适应降解DNA的特性[15]、[22]、[23]、[24]、[25]、[26]。这些下游策略试图在组装阶段补偿输入数据质量的不足。然而,这些方法往往忽视了上游预处理的关键作用。因此,大多数工具对参考基因组有很强的依赖性,当参考样本和目标样本之间存在显著遗传差异时,容易出现错误或组装失败。此外,末端核苷酸损伤(如胞嘧啶脱氨和链断裂)的影响经常被低估[8]、[10]、[15]。
为了提高从片段化DNA中组装线粒体基因组的效率和准确性,本研究开发了一种名为MTAK的专用预处理工作流程。该工作流程包括两个关键步骤:首先,从原始测序数据中提取与参考线粒体基因组具有高序列相似性的读段;其次,根据DNA损伤的特征模式,对这些同源读段的5’和3’末端的前十个碱基进行专门的末端修复处理。MTAK工作流程与多种常用的线粒体基因组组装工具兼容。
在这项研究中,我们使用GetOrganelle作为代表性的组装工具,系统评估了MTAK在各种类型降解DNA样本上的性能。我们还开发了一个定制的质量控制和评估框架,以确保在实际研究条件下的可重复性和鲁棒性。当前的结果表明,MTAK显著减少了计算时间,同时保持了高组装完整性和准确性。此外,我们建立了组装性能与测序深度之间的交互模型,为以最小的测序投入实现最佳组装提供了理论框架。这种方法不仅增强了片段化DNA在遗传和进化研究中的实用性,还为处理具有挑战性的DNA材料提供了宝贵的理论支持。

样本选择

样本选择

总共从博物馆收藏和野外来源获得了24个来自10个物种的片段化DNA样本,这些样本的损伤程度各不相同。涉及的物种包括阿穆尔虎(Panthera tigris altaica)、北极狐(Vulpes lagopus)、梅花鹿(Cervus nippon)、缅甸蟒(Python molurus bivittatus)、家牛(Bos taurus)、中华穿山甲(Manis pentadactyla)、中华龟(Mauremys reevesii)、狼(Canis lupus)、西伯利亚狍(Capreolus pygargus)和猪(

数据质量

24个DNA样本的数据质量总结在表S2中。样本中内源性DNA的比例相对较高,平均为67.09% ± 22.06%(19.58–95.24%)。尽管如此,样本间的差异较大(CV = 0.329)。在DNA片段化方面,24个样本也表现出变异性(CV = 0.231),平均序列长度为58.5 ± 13.6 bp(34.6–83.4 bp)。随后,mtDNA同源序列的比例

讨论

在野生动物研究中,获取高质量的DNA样本往往具有挑战性。研究人员经常依赖非侵入性或陈旧的样本,如脱落的羽毛、博物馆标本、毛发或粪便,其中的DNA通常高度降解和片段化[8]、[10]、[12]、[13]。这种片段化对线粒体基因组(mtDNA)的组装构成了重大挑战,通常导致覆盖度低和序列不完整。以往的研究主要集中在调整组装参数上

结论

总之,MTAK预处理工作流程为从高度片段化和降解的DNA中组装线粒体基因组提供了一种有效且可扩展的解决方案。通过选择性提取同源读段和处理受损的末端碱基,MTAK显著提高了组装的完整性和准确性,同时大幅减少了计算时间和资源消耗。该工作流程与多种下游组装工具兼容,可以应用于多种样本类型

作者贡献声明

徐彦春:撰写 – 审稿与编辑、资源获取。杨淑辉:撰写 – 审稿与编辑、资源管理、方法学。高鹏:撰写 – 初稿撰写、验证、方法学、概念构建。周永恒:撰写 – 初稿撰写、方法学、数据管理、概念构建。

资助

本研究得到了中央高校基本科研业务费(2572022DQ03)的支持。

利益冲突声明

作者声明没有利益冲突。

致谢

本研究得到了中央高校基本科研业务费(2572022DQ03)的支持。我们感谢中国东北林业大学的白素英博士和马悦博士在基因组数据分析方面提供的帮助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号