综述:基于图的植物泛基因组学:技术、应用及挑战

《aBIOTECH》:Plant graph-based pangenomics: techniques, applications, and challenges

【字体: 时间:2025年03月29日 来源:aBIOTECH 4.6

编辑推荐:

  本文围绕植物图泛基因组展开,介绍其构建算法、读长比对和变异基因分型的方法,阐述在植物基因组研究中的应用,包括发现遗传多样性、助力作物驯化与育种等,分析面临的挑战并展望未来,为植物基因组学研究提供了全面的参考。(泛基因组:Pangenome;图泛基因组:graph pangenome)

  ### 基于图的植物泛基因组学:技术、应用及挑战
在植物基因组研究领域,DNA 测序技术的创新带来了革命性的变化。过去几十年间,测序成本大幅降低,使得众多植物基因组能够进行从头组装,各类组学研究也得以广泛开展。然而,传统的基因组分析方法存在一定局限性,常依赖单一线性参考基因组,这在面对种群中广泛存在的序列多样性时,易导致映射偏差或失败,尤其是在高度分化区域或参考基因组中缺失的序列上表现明显。
为解决这些问题,泛基因组(Pangenome)的概念应运而生。泛基因组最初用于描述细菌不同菌株的基因集合,后来延伸到真核生物基因组,涵盖了一个物种中所有的 DNA 序列,包括核心基因组(所有个体共享的序列)和 dispensable 基因组(仅部分个体或单个个体拥有的序列)。植物泛基因组研究发展迅速,目前已有多种构建策略,其中图泛基因组(graph pangenome)因能更高效准确地进行读长映射和变异检测,受到了广泛关注。

1. 图泛基因组的构建


图泛基因组的构建是泛基因组研究的基础,但目前尚无完全令人满意的方法。在构建过程中,开发者需要考虑诸多关键因素,如构建模型的效率(运行时间和内存使用)、成本、处理大量基因组时的可扩展性和稳定性、快速索引方法的设计、图存储的内存使用效率,以及与下游生物信息分析或传统线性参考系统的兼容性等。同时,还需思考是否以及如何将原始线性坐标和序列样本信息嵌入图中。

从技术层面看,有两种广泛应用的计算结构用于表示图泛基因组:de Bruijn 图和序列图。

  • de Bruijn 图:在基因组组装中常用,其节点代表由数十亿短读长生成的重叠 k - mer。在图泛基因组中,可通过修改数据结构从多个组装基因组构建此类图,如彩色 de Bruijn 图(如 Cortex、Bifrost)、简洁 de Bruijn 图(如 Baier 等人 2016 年提出的方法)、压缩 de Bruijn 图(如 TwoPaCo、BCALM2、Bifrost)、基于布隆过滤器的 de Bruijn 图(Salikhov 等人 2014 年提出)、Minimizer - space de Bruijn 图(如 mdbg)等。不过,这些表示方式存在一些局限性,例如固定的 k - mer 长度、复杂的图拓扑结构,以及由于节点重叠导致与变异图模型不兼容等问题12
  • 序列图:目前应用更为广泛,因为有许多下游生物信息工具可与之兼容,便于进行变异检测和基因分型等传统线性参考基因组基础上的分析。在序列图中,节点标记有 DNA 序列,边表示基因组中序列的连续关系,图中的路径对应于整合基因组的单倍型序列,气泡则表示基因组间的变异。序列图的一种特殊类型 —— 变异图,嵌入了一组代表泛基因组序列的路径。

构建序列图主要有两种方法:

  • 基于参考变异的序列图:通常基于线性参考基因组和给定种群的不同类型变异,使用有向无环图(DAG)或双向循环图(BCG)构建图泛基因组。许多工具采用这种方法,如 Graphtyper、BayesTyper、Paragraph、Seven Bridges’ Graph Genome Pipeline、Gramtools 等。这些工具大多以 FASTA 格式的线性参考基因组文件和 VCF 格式的变异文件作为输入。然而,VCF 格式有时无法完全表示复杂的结构变异,输入变异的质量也会对图泛基因组的效率产生较大影响,因为这些变异常通过组装比较和长读长映射等方法获得,可能存在残留比对错误、错误变异检测或变异冗余等问题345
  • 基于基因组比对的序列图:利用多次迭代的基因组序列比对来生成图泛基因组。像 Cactus/ProgressiveCactus、SibeliaZ 等工具生成的多序列比对结果可反映序列关系,并进一步渲染成图泛基因组。但全基因组多序列比对计算成本较高,尤其是随着测序基因组数量的增加。为解决这一问题,Minigraph 扩展了 minimap2 线性参考比对算法,通过迭代过程构建图,能快速为 20 个人类基因组构建图泛基因组。不过,它构建的图仅包含大变异(默认值 > 50bp),无法将序列比对到包含所有小变异的图,且不编码样本信息。近期的 Minigraph - Cactus 管道结合了 Minigraph 和 Cactus 的优势,以及改进版的 vg,可直接从全基因组比对生成碱基水平的图泛基因组,支持多种下游分析。此外,seqwish 可直接从给定的基因组序列及其比对构建变异图,虽计算成本高,但能统一表示序列关系,嵌入所有变异,并支持所有输入序列的重建。它被整合到 PanGenome Graph Builder(PGGB)管道中,该管道使用 wfmash 进行全基因组比对,用 seqwish 创建图,通过 smoothxg 迭代图,并用 gfaffix 去除节点冗余。另一种针对植物物种的无参考多基因组比对器 ACMGA,有望整合到图泛基因组工作流程中678

2. 基于图泛基因组的读长比对和变异基因分型


图泛基因组整合了多个个体的基因组序列,有助于提升下游基因组分析的性能,包括变异检测和基因分型。其典型工作流程一般包括图构建与索引、读长比对或 k - mer 搜索,以及变异基因分型三个主要步骤。

在许多泛基因组研究中,常基于多个代表性个体基因组的长读长组装生成高质量的图泛基因组和结构变异(SV)集合,而被基因分型的个体基因组数量通常可达数百甚至数千个,且多采用短读长测序。构建并索引图泛基因组后,可使用读长到图的比对器将每个个体的读长比对到图上(基于映射的方法),或者采用基于 k - mer 的方法,即在读长中搜索图泛基因组中每个变异的特定 k - mer。最后,通常使用概率模型根据支持参考和变异等位基因的读长或 k - mer 计数来确定变异基因型910

目前,已有十多种基于图泛基因组的基因分型工具,包括基于映射的工具(如 vg、Paragraph、Gramtools、HISAT - genotyper、GraphTyper)和基于 k - mer 的工具(如 BayesTyper、PanGenie),还有一种结合两种方法的集成基因分型工具 EVG。值得注意的是,大多数基于图的变异工具仅支持基因分型,很少有工具能基于读长比对到图泛基因组来识别新变异。

  • 基于映射的基因分型:该方法通常根据读长与图泛基因组的比对来确定基因型。比对器可将读长比对到 de Bruijn 图(如 deBGA、BGREAT、BrownieAligner)或结构为 DAG 的序列图(如 GenomeMapper、Seven Bridges、Paragraph),以及任意变异图(如 vg map、vg giraffe、GraphAligner)。部分工具可处理短读长和长读长,如 vg map、PaSGAL、AStarix,而 GraphAligner、PanAligner 等则专门用于长读长比对。这些工具的比对输出可进一步用于基因分型,如使用 vg 进行基因分型。但基于映射的方法面临高计算成本的挑战,例如旧版本的 vg map 比对速度比最先进的线性参考比对器慢一个数量级。为提高效率,一些工具进行了优化,如 vg giraffe 通过优先考虑个体基因组中观察到的路径,显著减少了可能单倍型的搜索空间,使其速度与单一线性参考比对器相当,同时保持较高准确性;GraphTyper2 通过将预比对到线性参考基因组的读长重新比对到基因组 bin(默认大小为 1Mb)的局部图,加快了映射过程并降低了计算成本;Paragraph 也利用读长的预映射结果快速定位候选区域并重新比对到图上111213
  • 基于 k - mer 比较的基因分型:与基于映射的方法不同,基于 k - mer 的基因分型工具无需将读长比对到图上,在速度和计算资源使用方面优于基于映射的方法。这类工具通常通过扫描测序读长来计算变异位点特异性 k - mer 的频率,然后在考虑测序误差的情况下对这些频率的分布进行建模,通过计算或最大化每个候选单倍型(多个相邻变异的组合)的可能性来推断基因型。不同的基因分型工具在 k - mer 大小、单倍型长度和统计模型的选择上有所差异,例如 BayesTyper 使用泊松分布确定噪声 k - mer 计数的概率,使用负二项分布确定双倍型(单倍型对)计数的概率,以对可能的单倍型后验分布进行建模。然而,仅依赖独特 k - mer 的方法在重复区域往往效果不佳,因为这些区域缺乏足够的独特 k - mer。相比之下,另一种基于 k - mer 的图基因分型工具 PanGenie 通过利用来自多个单倍型解析组装的长程连接信息,可提高对大插入和重复区域变异的基因分型性能。研究表明,结合这些工具可进一步提升基因分型性能,如 EVG141516

3. 图泛基因组在植物基因组学中的应用


在植物研究中,传统的群体重测序或泛基因组研究多使用短读长测序平台对大量个体基因组进行测序,且对遗传多样性的研究主要集中在小变异上。近年来,长读长测序技术的发展使人们能够通过对多个代表性个体的从头组装或重测序发现以前隐藏的 SV。随着图泛基因组的出现,可对这些短读长测序数据集进行全面重新分析,以识别包含所有类型变异的种群多样性。许多图泛基因组研究在大规模种群中鉴定出大量 SV,并利用这些 SV 基因型,结合 SNP 和 indel 基因分型,进行表达数量性状位点(eQTL)、全基因组关联研究(GWAS)、标记辅助选择(MAS)和基因组预测(GP)等分析17

  • 发现隐藏的遗传多样性:在大豆、水稻、番茄等多种作物的图泛基因组研究中,构建了包含大量非冗余 SV 的图泛基因组,并利用其对更大种群进行 SV 基因分型。例如,一项大豆图泛基因组研究构建的图包含约 124,000 个非冗余 SV,并用于对近 2900 份样本进行 SV 基因分型;水稻图泛基因组研究分别构建了包含不同数量 SV 的图泛基因组,用于研究遗传多样性;番茄图泛基因组研究则通过整合不同类型的变异,成功对大量变异进行了基因分型。此外,其他多种作物也开展了图泛基因组研究,为揭示遗传多样性提供了重要依据1819
  • 作物驯化和育种:图泛基因组不仅有助于全面了解遗传多样性,还能帮助确定与作物驯化和农艺性状相关的功能位点。例如,早期大豆图泛基因组研究发现,一个 HPS 编码基因上的 10kb PAV 可能控制大豆种子光泽变异;水稻图泛基因组研究通过 SV - based GWAS 发现了与叶片衰老表型相关的 SV,而传统的 SNP - based GWAS 可能会遗漏这些关联。此外,许多研究表明,SV 在作物驯化中发挥着重要作用,且图泛基因组研究可利用 SV 和基因表达数据定位重要农艺性状的候选基因。同时,图泛基因组还能增强对缺失遗传性的理解,助力基因组选择。例如,在狗尾草的研究中,包含 SV 和 SNP 的分析相较于仅使用 SNP 标记,显著提高了预测准确性202122
  • 技术考虑:大多数植物图泛基因组研究采用将参考序列和变异融合的方式构建图泛基因组,如 vg。从技术角度看,基于长读长的组装比对方法能产生大量高质量变异,尤其是 SV,对小变异的检测也有益处,特别是在重复区域。为提高 SV 检测和图泛基因组构建的质量,需要足够数量的代表性个体的长读长组装。早期研究通常选择较少个体,而近期一些作物研究收集了 100 多个基因组的从头组装。此外,组装质量对准确识别各种大小的 SV 至关重要,端粒到端粒的组装有助于检测复杂区域(如着丝粒和近着丝粒区域)的高质量 SV,但由于当前算法的限制,这些复杂区域在图泛基因组中常被忽略或屏蔽2324
  • 超级泛基因组图:图泛基因组已扩展到属、节或系统发育分支水平,通过构建超级泛基因组图,整合栽培物种、野生近缘种和系统发育相近物种的基因组。野生或近缘物种通常具有更高的遗传多样性和更好的适应生物和非生物胁迫的能力,其未开发的遗传多样性为作物改良提供了机遇。目前,在水稻、玉米、番茄、鹰嘴豆和柑橘等作物上开展了超级泛基因组研究。例如,番茄超级泛基因组研究通过整合野生近缘种的遗传变异,发现了大量与番茄性状相关的候选位点,并鉴定出一个可能提高栽培品种产量的野生番茄基因;柑橘亚科的泛基因组研究在构建图泛基因组时鉴定出大量 SV,并通过 SV - based GWAS 定位了功能位点。然而,图泛基因组工具在处理遗传差异较大的种群时效率仍不确定,可能导致短读长比对和 SV 基因分型失败,影响下游应用2526

4. 应用图泛基因组面临的挑战


目前大多数图泛基因组工具是基于人类基因组数据集开发的,应用于植物基因组时面临诸多挑战,这是由于植物基因组存在复杂的特征,如重复序列含量高、基因组大、杂合度高和多倍体等。尽管在植物中已有多项图泛基因组研究,但这些基于图的生物信息工具在不同场景下的性能仍需全面评估。

  • 重复区域:许多 SV 与转座子的移动有关,在富含重复序列的基因组或局部重复区域(如着丝粒和 R 基因簇)进行准确基因分型是一个重大挑战。相同或高度相似的重复序列会在图泛基因组中引入多个候选比对位置,或消除独特的 k - mer,导致基于读长比对和基于 k - mer 的基因分型工具难以区分可能的基因型。研究表明,大多数图泛基因组基因分型工具在重复区域的准确性和召回率显著下降,尤其是在玉米等重复序列丰富的物种中。一些图泛基因组研究选择排除这些高度复杂的区域。为解决这一问题,可使用多个端粒到端粒的组装构建图,以及长的、高保真的 PacBio 读长进行基因分型,这有助于区分高度相似区域中因读长映射不准确产生的假杂合变异。此外,开发考虑更长 k - mer 或同时考虑独特和重复 k - mer 的更复杂工具,可能有助于缓解映射歧义272829
  • 大基因组和图:大多数大规模植物图泛基因组研究集中在基因组相对较小或转座子比例较低的物种。较大的植物基因组(如小麦)会显著增加图泛基因组的大小,减缓读长比对速度,增加计算资源需求。为加速大基因组的图泛基因组构建和变异基因分型,一些研究仅纳入特定类型的变异(如 SV),但这可能会降低读长映射准确性,影响大变异的正确基因分型,尤其是那些常伴随附近小变异的大变异。增加图中基因组的数量也会影响基于图的基因分型工具的运行效率和基因分型准确性,因为更多的差异基因组会在图中产生更多的气泡和路径,扩大搜索空间,增加映射歧义性和计算成本。在实践中,在将所有变异添加到图之前选择减少变异集,可帮助平衡准确性和计算开销,可根据等位基因频率、局部密度、重复性、基因组位置、单倍型信息和整合模型等标准进行变异选择,已有算法对这些标准进行了数学建模以优化图中变异的纳入3031
  • 高杂合度和多倍体:许多园艺作物(如甜橙和苹果)基因组杂合度较高,且植物中杂合二倍体基因组的单倍型解析组装相对较少,这可能是缺乏大规模杂合二倍体植物图泛基因组研究的原因之一。此外,许多作物是异源多倍体(如小麦、棉花、油菜)、同源多倍体(如马铃薯、苜蓿)或部分多倍体(如甘薯)。对于异源多倍体,如果组成亚基因组差异较大或亚基因组间同源重组频率较低,图泛基因组基因分型工具理论上可有效工作,但需注意亚基因组间高度相似的区域,因为频繁的重组事件会增加序列相似性,给变异基因分型的读长映射带来更多不确定性。例如,棉花图泛基因组研究中,在 11 个组装的异源四倍体个体中鉴定出约 183,000 个 SV,但使用 1158 个个体的短读长数据仅成功对 48% 的 SV 进行了基因分型。对于同源多倍体,目前尚无

濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙

10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�

婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷

闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�

濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号