线粒体基因组多染色体结构:开启药用石斛精准鉴定全新篇章

【字体: 时间:2025年02月16日 来源:BMC Plant Biology 4.3

编辑推荐:

  为解决药用植物准确鉴定难题,南京师范大学的研究人员开展药用石斛线粒体基因组研究。他们发现其多染色体结构可用于鉴定,筛选出突变热点。该成果为药用植物鉴定提供新方法,极具科研价值,推荐大家阅读。

  
南京师范大学生命科学学院的研究人员 Mengting Wang、Jiapeng Yang 等人在《BMC Plant Biology》期刊上发表了题为 “The multi-chromosomal structure of mitogenomes provided new insights into the accurate authentication of medicinal Dendrobium species” 的论文。该论文在药用植物鉴定领域具有重要意义,为准确鉴别药用石斛属植物提供了新的方法和思路,有助于保障药用植物资源的安全性和质量。

研究背景


药用植物作为重要的药物原材料来源,在人类健康领域发挥着关键作用。随着全球药用植物及其产品市场的不断扩大,确保药用植物来源的准确性变得至关重要。DNA 条形码技术出现后,在追踪草药来源和鉴定药用植物方面展现出巨大潜力,生命数据系统(BOLD)数据库中已有数千万个条形码用于不同分类群的药用植物分类和鉴定 。但仍约有 40% 的药用植物分类群缺乏可用条形码,且 DNA 条形码在不同植物谱系中的鉴定效率参差不齐,没有一种通用条形码能适用于所有植物物种,因此开发更高效的 DNA 条形码对药用植物的准确鉴定和分类十分必要。

线粒体基因组是探索 DNA 条形码的重要资源。尽管叶绿体基因组衍生的 DNA 条形码在物种鉴定中表现出色,但线粒体序列在某些特定植物谱系中具有独特的鉴定优势。例如,Wang 等人利用 nad7 的第四个内含子成功鉴别出 9 种韩国人参品种中的 “Chunpoong”,其鉴定效率高于核和质体 DNA 序列(ITS、matK 和 rbcL)的通用条形码 。植物线粒体基因组由于频繁的分子内或分子间重组,通常具有多染色体结构,能为物种分类和鉴定提供特定分子标记。近年来,得益于第三代测序技术的发展,许多植物物种的线粒体基因组已被报道,但从线粒体序列开发的 DNA 条形码,尤其是超级条形码仍然稀缺。

石斛属是兰科中最大的分类群之一,约有 1500 种,以其形态和遗传多样性而闻名。在许多亚洲国家,石斛属植物用于治疗多种疾病已有数千年历史。目前,已报道有 40 多种石斛属植物具有很高的药用价值,如铁皮石斛(Dendrobium officinale)、金钗石斛(Dendrobium nobile)、霍山石斛(Dendrobium huoshanense)等。然而,由于不同石斛属植物药用价值存在差异,高价值的石斛品种在草药市场上常被其他品种掺杂。仅依靠形态特征很难区分这些亲缘关系密切的物种,因此石斛属药用植物是分析物种分类和鉴定的合适系统。此外,已有 4 个高质量的石斛属线粒体基因组被发表,且线粒体序列已成功应用于石斛属物种的系统发育分析,为线粒体 DNA 条形码的探索和检测奠定了基础。

研究方法


  1. 植物材料采集:研究人员从南京师范大学生命科学学院温室中人工授粉的石斛植株上收集了 3 种药用石斛(D. devonianum、D. nobile 和 D. loddigesii)的成熟蒴果,将种子在 MS 培养基上无菌培养,从无菌培养的植株上采集用于提取线粒体 DNA 的根尖。同时,还收集了 15 种药用石斛的 45 个个体用于鉴定分析,详细记录了采样地点和凭证编号,并经 Prof. Xiaoyu Ding 鉴定后保存于 NNU。
  2. DNA 提取:采用 Wang 等人的方法,从约 5g 的 3 种石斛根尖中提取线粒体 DNA;利用 DNeasy Plant Mini Kit(Qiagen, Hilden, Germany)从 0.2g 新鲜叶片中提取 45 个石斛个体的总 DNA,确保 DNA 样品符合测序质量要求(浓度≥20 ng/μl,A260/230>1.7,A260/280=1.8 - 2.0)。
  3. 线粒体基因组测序、组装和注释:对纯化后的 3 种石斛线粒体 DNA 分别构建 Nanopore 长读长(10 kb)和 Illumina 短读长(150 bp)文库,并在 Nanopore 平台和 Illumina Hiseq4000 平台上测序。利用 LoRDEC 软件(kmer 值 =19;丰度阈值 =3)用 Illumina 双端读数校正 Nanopore 长读数据。45 个石斛个体的总 DNA 仅构建 Illumina 短读长文库并测序,用 CLC Genomics Workbench 8.5.1 软件修剪低质量读数。
    • 采用两种策略组装石斛线粒体基因组:一是基于 Nanopore 和 Illumina 数据,用 de novo 策略在 SPAdes v3.10.1 软件(kmer 值 = 21, 33, 55, 77, 99;phred 偏移 =33)中组装 D. devonianum、D. nobile 和 D. loddigesii 的线粒体基因组,选择覆盖度 > 20 的支架候选序列,将首尾重叠无法延伸的支架评估为环状,再用 BWA 和 Pilon 软件校正错误碱基和插入缺失;二是以已发表的 D. huoshanense 线粒体基因组为参考,用 CLC Genomics Workbench 8.5.1 软件通过 Illumina 双端读数获取其他石斛个体的线粒体序列。
    • 用 blast 方法注释线粒体基因组的蛋白质编码和 rRNA 基因,构建 48 种被子植物线粒体基因的本地数据库,用 BLASTN 软件(https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)将线粒体序列与数据库比对(e 值 < 1e??),在 Vector NTI 中手动检查蛋白质编码基因注释,用 tRNAscan-SE 1.21 软件注释 tRNA 基因。

  4. 序列变异性评估:为筛选 15 种药用石斛线粒体的突变热点,计算这些物种线粒体基因组间共享的非编码区域的种间序列变异性(SV)。由于基因重排频繁,最终仅分析线粒体基因组的内含子区域,排除长度小于 150bp 的内含子区域,SV 计算公式参考 Niu 等人的方法。
  5. 物种鉴定分析:石斛线粒体基因组具有由不同异构体(染色体)组成的多染色体结构。以 D. huoshanense 线粒体基因组为参考组装用于鉴定分析的石斛线粒体序列,这些序列均包含 19 种异构体,长度在 20,645bp 至 70,769bp 之间,将每种异构体视为一个超级条形码,编号从 Mt01 到 Mt19 。
    • 用 MAFFTv7 软件比对 19 个超级条形码数据集,将比对后的超级条形码连接成完整的线粒体基因组比对,排除缺失数据超过 50% 的位点。选择两个石斛物种(D. kingianum、D. salaccense)和两个石豆兰属物种(B. pectinatum、B. affine)分别作为内群和外群。基于 GTRGAMMA 模型,在 RAxML v8.0.0 软件中对 20 个比对数据集进行最大似然(ML)分析,通过 1000 次自展重复评估 ML 树的稳健性,根据成功鉴定物种数与总鉴定物种数的比例估计每个线粒体数据集的鉴定效率,成功鉴定物种的标准为:同一物种的所有个体聚为单系群;单系群分支的自展支持率大于 70%。
    • 选择在鉴定分辨率上互补的异构体(Mt06、Mt12、Mt13、Mt17、Mt19),两两组合构建 ML 树,计算组合数据集的鉴定效率。

  6. 重复内容分析:用 BLASTN 软件(https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)鉴定线粒体基因组的重复序列(e 值 <1e??),用 Python 脚本排除冗余序列,选择序列相似性> 95% 且序列长度 > 20bp 的重复内容来量化重复数、分布和长度。用 MISA 软件(https://webblast.ipk-gatersleben.de/misa/)分析 3 种石斛线粒体基因组的简单序列重复(SSRs),设置单核苷酸基序和多核苷酸基序的最小重复次数分别为 8 和 5,量化 SSRs 在每个异构体中的分布,用 SPSS Statistics 22.0 软件分析 SSRs 分布与 GC 含量的相关性。
  7. 线粒体基因组比较分析:从 NCBI 下载 4 个已发表的石斛线粒体基因组(D. officinale:LC640134 - LC640155;D. huoshanense:LC657527 - LC657545;D. wilsonii:LC744518 - LC744539;D. henanense:LC744540 - LC744563)和其他 2 个已发表的兰科线粒体基因组(Phalaenopsis aphrodite:MN366132 - MN366175;Gastrodia elata:MF070084 - MF070102)进行线粒体基因组比较分析。基于 BLASTN 方法(e 值 < 1e??)分析这些线粒体基因组之间的相似性,用 Python 脚本排除冗余序列,计算相似序列长度以衡量任意两个线粒体基因组之间的相似性,用 Mauve Build 软件可视化相似模块和比对结果。

研究结果


  1. 石斛线粒体基因组特征:利用 Illumina 和 Nanopore 序列数据对 3 种药用石斛的线粒体基因组进行测序和组装,结果显示其具有多染色体结构,异构体数量在 18 - 24 种之间。线粒体基因组长度分别为 635,454bp(D. devonianum)、831,745bp(D. nobile)和 698,769bp(D. loddigesii),总 GC 含量分别为 43.47%、43.54% 和 43.93% 。注释发现这些线粒体基因组中有 59 - 62 个独特基因,均包含 38 个独特的蛋白质编码基因,但部分蛋白质编码基因存在重复,如 atp6 在这些基因组中有两个拷贝,rps14 仅在 D. nobile 线粒体基因组中重复。共有 10 个蛋白质编码基因包含内含子:nad1、nad2、nad4、nad5、nad7、cox2、ccmFc、rpl2、rps3 和 rps10。3 种线粒体基因组中的 rRNA 基因数量一致,均包含 3 种 rRNA 基因,而 tRNA 基因数量在每个线粒体基因组中有所不同,D. loddigesii 线粒体基因组中的 tRNA 基因种类最多(21 种),D. nobile 次之(19 种),D. devonianum 最少(18 种)。
  2. 线粒体基因组的同源区域和基因簇:检测并可视化 3 种石斛线粒体基因组的同源区域,发现尽管这些线粒体基因组经历了多次重排,但仍有大部分序列作为同源模块共享。鉴定出 14 个保守基因簇,如 rrn26trnM - CAT、atp8 - nad4L - atp4 等。不过,与其他已发表的 4 个石斛线粒体基因组相比,D. nobile 线粒体基因组中不存在 nad9 - trnF - GAA,D. devonianum 和 D. loddigesii 线粒体基因组中不存在 trnE - TTC - trnY - GTA,这表明大多数基因簇在属水平的基因重排过程中是保守的。
  3. 线粒体异构体间 SSR 的不均匀分布:在 D. devonianum、D. nobile 和 D. loddigesii 线粒体基因组中仅检测到单核苷酸和二核苷酸两种简单序列重复(SSRs)。3 种线粒体基因组中 SSRs 总数差异显著,D. loddigesii 线粒体基因组中的 SSRs 最多(327 个),约为 D. devonianum 的 3 倍。SSRs 在不同线粒体异构体间分布不均匀,如 D. loddigesii 线粒体基因组的 isoform1 包含 136 个 SSRs,而 isoform10 和 isoform18 中未发现 SSRs。在 D. devonianum 和 D. nobile 线粒体基因组中,SSRs 分布与异构体长度相关性较弱(Pearson's r = -0.32;Pearson's r = -0.20,P>0.05),在 D. loddigesii 线粒体基因组中呈正相关(Pearson's r = 0.66,P<0.05) 。进一步分析发现,D. devonianum 和 D. nobile 线粒体基因组中 GC 含量与 SSRs 分布呈负相关(Pearson’s r = -0.56;Pearson's r = -0.64,P<0.05),而 D. loddigesii 线粒体基因组中二者无显著相关性(Pearson's r = -0.15,P>0.05)。
  4. 7 种石斛线粒体基因组比较:比较 7 种石斛线粒体基因组(以 2 种已发表的兰科线粒体基因组为外群)发现,石斛线粒体基因组大小在进化过程中发生了明显扩张,从 D. nobile 的 831,745bp 到 D. officinale 的 618,838bp 不等,与其他兰科物种相比也有显著差异,如 Gastrodia elata 线粒体基因组长度约为 D. officinale 的两倍。所有分析的石斛线粒体基因组均呈现多染色体结构,由 18 - 24 种异构体组成,这表明兰科线粒体基因组结构进化迅速。
    • 由于系统发育亲缘关系,石斛属物种间线粒体基因组共享的序列比与其他兰科物种更多。例如,D. huoshanense 与其他石斛属物种(D. officinale - 80%,D. henanense - 91%,D. wilsonii - 89%,D. nobile - 81%,D. devonianum - 76%,D. loddigesii - 70%)共享超过 70% 的序列,但与 Phalaenopsis aphrodite 仅共享 43% 的序列,与 Gastrodia elata 仅共享 15% 的序列,这说明线粒体基因组序列在属水平上相对保守。
    • 检测 7 种石斛和 2 种其他兰科物种线粒体基因组的重复序列发现,重复内容是兰科线粒体基因组中变化最大的特征之一,这些线粒体基因组包含丰富的重复序列,占整个线粒体基因组长度的 2% - 32%,重复序列总长度从 D. devonianum 的 9,813bp 到 D. loddigesii 的 220,414bp 不等。重复内容与线粒体基因组总长度之间无显著相关性,如 D. loddigesii 和 D. devonianum 线粒体基因组大小相似,但重复内容相差 22 倍,这表明重复序列不是石斛属线粒体基因组扩张的潜在原因。

  5. 线粒体基因组的突变热点:从 45 个石斛线粒体基因组中提取 18 个共享的非编码区域(>150bp)计算种间序列变异性(SV),这些区域均为内含子区域,长度在 800bp 至 3,000bp 之间,SV 值均大于 1%。在 15 种药用石斛中,nad1 的第二个内含子 SV 值最高,其次是 nad2 的第一个内含子(序列变异性 > 7%)。有 8 个内含子区域的 SV 值超过 5%,包括 nad1_intron2、nad2_intron1、nad7_intron2 等。这些长度适中、序列变异性高的线粒体基因组突变热点可用于属水平的系统发育、分类和鉴定研究。
  6. 基于线粒体基因组的物种鉴定分析:基于构建的 ML 树评估每个线粒体数据集的鉴定效率,结果显示 15 种药用石斛的完整线粒体基因组鉴定效率为 100%,个体均以 100% 的自展支持率聚为单系分支(少数分支除外) 。线粒体异构体(Mt01 - Mt19)数据集对石斛物种鉴定的效率各不相同,如 Mt17 的鉴定效率为 93%(仅 D. chrysanthum 未能鉴定),Mt03 仅能鉴定 8/15 的石斛物种。特定线粒体异构体之间的鉴定分辨率具有互补性,如 Mt17 能成功鉴定 D. moniliforme 及其近缘物种,但对 D. chrysanthum 的鉴定效率低于 Mt06。将互补的异构体两两组合分析发现,组合数据集的鉴定能力明显提高,其中 Mt17 + Mt19 能成功鉴定本研究中所有药用石斛物种,鉴定效率达 100%。这表明完整线粒体基因组及其异构体作为药用植物鉴定的超级条形码具有强大潜力,尤其是 Mt17 + Mt19,分辨率高且长度适中。

研究结论与讨论


本研究首次报道了 3 个高质量的石斛线粒体基因组,并将完整线粒体序列首次应用于石斛物种鉴别和突变热点筛选。研究人员基于 Illumina 和 Nanopore 测序数据从头组装了 3 种药用石斛的线粒体基因组,其长度在 635,454bp - 831,745bp 之间,由 18 - 24 种异构体组成。通过对 7 种石斛和 2 种兰科线粒体基因组的比较分析,揭示了它们之间快速的结构变异、重复内容的异质性和同源区域的块状分布。此外,通过完整线粒体基因组的比较分析筛选出 8 个突变热点。最后,将完整线粒体基因组序列及其异构体应用于开发用于石斛物种鉴定的高效 DNA 条形码,完整线粒体基因组序列和异构体组合(Mt17 + Mt19)对 15 种石斛物种的鉴定效率均达到 100%。与完整线粒体基因组相比,单个异构体在鉴定分析中更易于组装和比对,因此推荐使用异构体组合(Mt17 + Mt19)对石斛物种进行快速准确的鉴定。

以往研究表明,许多 DNA 条形码在药用植物鉴定中的适用性有限,叶绿体基因组序列虽被用作基于基因组的 DNA 条形码(超级条形码),但仍存在一定局限性。本研究发现线粒体基因组的结构变异并非总是对其序列在分子生物学分析中的应用产生负面影响,相反,这种变异为分子生物学分析提供了多个不同的分区。推荐的线粒体基因组子集(Mt17 + Mt19)长度约为 500kb,具有足够的可变位点来区分 15 种石斛物种,包括亲缘关系密切的物种,其分辨率优于叶绿体基因组的 LSC 区域,且单个异构体更易于操作,为 DNA 条形码的开发提供了新的

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号