de Bruijn 图:在基因组组装中常用,其节点代表由数十亿短读长生成的重叠 k - mer。在图泛基因组中,可通过修改数据结构从多个组装基因组构建此类图,如彩色 de Bruijn 图(如 Cortex、Bifrost)、简洁 de Bruijn 图(如 Baier 等人 2016 年提出的方法)、压缩 de Bruijn 图(如 TwoPaCo、BCALM2、Bifrost)、基于布隆过滤器的 de Bruijn 图(Salikhov 等人 2014 年提出)、Minimizer - space de Bruijn 图(如 mdbg)等。不过,这些表示方式存在一些局限性,例如固定的 k - mer 长度、复杂的图拓扑结构,以及由于节点重叠导致与变异图模型不兼容等问题12。
序列图:目前应用更为广泛,因为有许多下游生物信息工具可与之兼容,便于进行变异检测和基因分型等传统线性参考基因组基础上的分析。在序列图中,节点标记有 DNA 序列,边表示基因组中序列的连续关系,图中的路径对应于整合基因组的单倍型序列,气泡则表示基因组间的变异。序列图的一种特殊类型 —— 变异图,嵌入了一组代表泛基因组序列的路径。
图泛基因组整合了多个个体的基因组序列,有助于提升下游基因组分析的性能,包括变异检测和基因分型。其典型工作流程一般包括图构建与索引、读长比对或 k - mer 搜索,以及变异基因分型三个主要步骤。
在许多泛基因组研究中,常基于多个代表性个体基因组的长读长组装生成高质量的图泛基因组和结构变异(SV)集合,而被基因分型的个体基因组数量通常可达数百甚至数千个,且多采用短读长测序。构建并索引图泛基因组后,可使用读长到图的比对器将每个个体的读长比对到图上(基于映射的方法),或者采用基于 k - mer 的方法,即在读长中搜索图泛基因组中每个变异的特定 k - mer。最后,通常使用概率模型根据支持参考和变异等位基因的读长或 k - mer 计数来确定变异基因型910。
目前,已有十多种基于图泛基因组的基因分型工具,包括基于映射的工具(如 vg、Paragraph、Gramtools、HISAT - genotyper、GraphTyper)和基于 k - mer 的工具(如 BayesTyper、PanGenie),还有一种结合两种方法的集成基因分型工具 EVG。值得注意的是,大多数基于图的变异工具仅支持基因分型,很少有工具能基于读长比对到图泛基因组来识别新变异。
基于 k - mer 比较的基因分型:与基于映射的方法不同,基于 k - mer 的基因分型工具无需将读长比对到图上,在速度和计算资源使用方面优于基于映射的方法。这类工具通常通过扫描测序读长来计算变异位点特异性 k - mer 的频率,然后在考虑测序误差的情况下对这些频率的分布进行建模,通过计算或最大化每个候选单倍型(多个相邻变异的组合)的可能性来推断基因型。不同的基因分型工具在 k - mer 大小、单倍型长度和统计模型的选择上有所差异,例如 BayesTyper 使用泊松分布确定噪声 k - mer 计数的概率,使用负二项分布确定双倍型(单倍型对)计数的概率,以对可能的单倍型后验分布进行建模。然而,仅依赖独特 k - mer 的方法在重复区域往往效果不佳,因为这些区域缺乏足够的独特 k - mer。相比之下,另一种基于 k - mer 的图基因分型工具 PanGenie 通过利用来自多个单倍型解析组装的长程连接信息,可提高对大插入和重复区域变异的基因分型性能。研究表明,结合这些工具可进一步提升基因分型性能,如 EVG141516。
3. 图泛基因组在植物基因组学中的应用
在植物研究中,传统的群体重测序或泛基因组研究多使用短读长测序平台对大量个体基因组进行测序,且对遗传多样性的研究主要集中在小变异上。近年来,长读长测序技术的发展使人们能够通过对多个代表性个体的从头组装或重测序发现以前隐藏的 SV。随着图泛基因组的出现,可对这些短读长测序数据集进行全面重新分析,以识别包含所有类型变异的种群多样性。许多图泛基因组研究在大规模种群中鉴定出大量 SV,并利用这些 SV 基因型,结合 SNP 和 indel 基因分型,进行表达数量性状位点(eQTL)、全基因组关联研究(GWAS)、标记辅助选择(MAS)和基因组预测(GP)等分析17。
重复区域:许多 SV 与转座子的移动有关,在富含重复序列的基因组或局部重复区域(如着丝粒和 R 基因簇)进行准确基因分型是一个重大挑战。相同或高度相似的重复序列会在图泛基因组中引入多个候选比对位置,或消除独特的 k - mer,导致基于读长比对和基于 k - mer 的基因分型工具难以区分可能的基因型。研究表明,大多数图泛基因组基因分型工具在重复区域的准确性和召回率显著下降,尤其是在玉米等重复序列丰富的物种中。一些图泛基因组研究选择排除这些高度复杂的区域。为解决这一问题,可使用多个端粒到端粒的组装构建图,以及长的、高保真的 PacBio 读长进行基因分型,这有助于区分高度相似区域中因读长映射不准确产生的假杂合变异。此外,开发考虑更长 k - mer 或同时考虑独特和重复 k - mer 的更复杂工具,可能有助于缓解映射歧义272829。