利用巢式关联作图群体在甘蓝型油菜中挖掘基因组预测潜力以加速遗传增益
【字体:
大
中
小
】
时间:2025年09月30日
来源:The Plant Genome 3.8
编辑推荐:
本研究通过巢式关联作图(NAM)群体评估了甘蓝型油菜重要农艺性状的基因组预测(GP)潜力,发现整合单核苷酸缺失多态性(SNaP)标记可显著提升预测精度达15%,为作物育种周期缩短和选择效率提升提供了新策略。
3.1 甘蓝型油菜NAM群体高质量SNP与SNaP标记的提取
SKBnNAM群体由2572个重组自交系(RIL)组成,用于评估四种性状在不同场景下的基因组预测潜力。经过质控筛选,从芸薹属60K Illumina Infinium芯片数据中提取出4926个高质量单核苷酸多态性(SNP)标记。此外,基于无效等位基因(未能成功检出的位点)在任一RIL亚群体中出现频率介于40%至60%之间的标准,鉴定出816个单核苷酸缺失多态性(SNaP)标记。SNP和SNaP标记均匀分布在整个基因组中,平均每条染色体携带299个标记,密度约为每兆碱基6个标记。其中染色体BnaC04上的标记数量最多(704个),而BnaA02上最少(140个)。值得注意的是,SNaP标记富集于SNP标记稀少或缺失的基因组区域,为填补基因分型空白提供了重要补充。SNP和SNaP标记的平均多态信息含量分别为0.34和0.32。连锁不平衡(LD)分析显示,LD在约550 kb的距离处下降至最大值的一半。
SKBnNAM群体的结构分析揭示了两个明显不同的遗传组群以及一个混合组群。最优K值分析表明,当K=2时模型拟合最佳,说明两个聚类足以解释该群体的遗传结构。主成分分析(PCA)结果与群体结构分析一致,也呈现出两个主要组群和一个次要组群的分布模式。第一组包含2122个株系,贡献了超过50%的遗传多样性;第二组包含426个株系,贡献了约49%的遗传多样性。
本研究关注的四个重要性状中,开花天数(DTF)具有最高的遗传力(h2=0.74),其次是株高(PH,0.61)、千粒重(TKW,0.58)和成熟天数(DTM,0.43)。株高表型变异范围广泛(91至200厘米)。开花天数与成熟天数呈正相关,但与株高或千粒重无显著相关性。此外,观察到株高增加时千粒重也有增加趋势。
利用两种标记集(单独SNP标记以及SNP+SNaP标记)对四个性状进行了全基因组关联分析(GWAS)。基于4926个SNP标记集的GWAS检测到三个与表型显著相关的区域。特别值得注意的是,染色体2上的一个区域(SNP: Bna.A02.p1585968)与开花天数、成熟天数及株高这三个性状均显著相关。该SNP位于基因BnaA02g003060.1DH内,该基因是RPN5A的同源基因,参与ATP依赖的泛素化蛋白降解过程。
使用包含5742个标记(其中816个为SNaP标记)的SNP+SNaP组合进行GWAS,额外发现了23个与性状相关的区域。例如,在染色体Bna.C09上发现了一个与成熟天数显著相关的新区域,以及另外两个分别与开花天数和株高相关的区域。这些区域仅在使用SNaP标记后才被检测到,凸显了SNaP标记在发现新关联位点方面的重要性。对显著关联标记的功能注释显示,这些基因涉及植物生长、转录调控和代谢过程等多种生物学功能。
3.4 使用八种不同模型对SKBnNAM群体进行基因组预测
不同模型对所有性状的预测精度范围处于中等至较高水平(0.27–0.71)。在四个性状中,开花天数的预测精度最高(0.71),其次是株高(0.63)。千粒重的预测精度最低(0.32–0.40),成熟天数次之(0.36–0.46)。遗传力高的性状(如开花天数和株高)其预测精度也高于遗传力低的性状。所使用的八种不同模型(包括线性模型和半参数模型,如rrBLUP、BayesA、BayesB、BayesCπ、贝叶斯LASSO (BL)、贝叶斯岭回归和 reproducing kernel Hilbert spaces regression (RKHS))之间预测精度无显著差异,大多数情况下差异仅在2%–4%之间。
使用八种不同的标记集评估了预测潜力,包括:SNP、FAST SNP(位于基因区域的SNP)、GWAS SNP (sp)(性状特异性显著GWAS SNP)、GWAS SNP (all)(所有性状的显著GWAS SNP)、SNP + SNaP、FAST SNP + SNaP、GWAS SNP + SNaP (sp)、GWAS SNP + SNaP (all)。不同标记集对每个性状的预测精度各不相同。总体而言,SNP与SNaP组合标记集(SNP + SNaP)相比单独使用SNP标记集产生了更高的预测精度。例如,对于株高,使用SNP+SNaP标记的精度(0.63)比单独使用SNP标记(0.53)提高了10%。GWAS SNP + SNaP (all)标记集对开花天数产生了最高的预测精度(0.71–0.72),这与仅使用300个性状特异性显著GWAS SNP [GWAS SNP (Sp)] 的结果(0.71)相当。对于成熟天数,GWAS SNP + SNaP (all)标记集的预测精度最高(0.46)。有趣的是,对于株高,GWAS SNP + SNaP (Sp)标记集显示出最高的预测精度,表明捕获显著相关的存在/缺失等位基因(SNaP标记)改善了对该性状的预测。对于千粒重,除GWAS SNP标记集外,其他每个标记集至少在一个模型上实现了不低于0.37的预测精度。总体而言,SNP和SNP+SNaP标记集的预测精度相似,而分布在基因区域的标记(FastSNP/FastSNP+SNaP)其预测精度略低于基于GWAS的标记集,但与SNP和SNP+SNaP标记集的精度相当。基于GWAS SNP + SNaP的标记集(除株高外)产生了最高的预测精度。
预测潜力并不随标记数量的增加而持续提高。例如,包含5742个标记的SNP+SNaP标记集所显示的预测精度与仅包含300–1529个标记的基于GWAS的标记集非常相似甚至略低。即使仅使用500个GWAS标记,也能持续获得合理的预测精度。对GWAS SNP + SNaP (all)标记集在不同子集下的预测潜力测试表明,大约50%的标记(765个)足以获得合理的预测精度,而将标记数量增加至75%以上(1147个标记)会导致除株高外所有性状的预测精度下降或不再变化。株高的精度随着标记的增加出现显著提升(从0.4增至0.65),表明该性状受某些位点的显著影响。开花天数在使用SNP+SNaP标记集时也观察到类似趋势。SNaP标记提供的额外覆盖,特别是在C09染色体上,显著增强了GWAS和GP的能力,凸显了整合不同标记集的价值。
对于GWAS SNP + SNaP标记集,在所有四个性状和八种不同模型下,预测精度随着训练群体规模的增加而提高。初始训练群体规模为500个株系;当规模翻倍(1000株系)时,预测精度平均提高5%–15%;将训练群体扩大三倍(1500株系)或四倍(2000株系)可进一步将精度提高5%–10%。SNP+SNaP标记集也观察到类似的积极趋势。两个标记集均表明,需要1500至2000个株系(训练集与验证集的最低比例约为3:2)作为训练群体才能获得最佳预测精度。
测试了基于不同数量株系(250–2500)但使用相同GWAS SNP + SNaP (all)标记集的预测精度;在每次测试中,子集群体的80%用作训练群体。总体而言,预测精度随着株系数量的增加而提高,并且无论使用何种GP模型,至少1000个株系能够产生合理的预测精度。
评估了群体结构对SKBnNAM群体预测精度的影响。基于标记的K均值聚类将2572个株系分为两个主要组群。使用两种不同标记集(SNP+SNaP和GWAS SNP+SNaP)评估了组内和组间的预测精度,以衡量群体结构的影响。总体而言,四个性状获得了中等至非常高的预测精度(0.58–0.93)。正如预期,组内株系的预测精度高于组间株系,存在11%的差异。当将群体结构的影响扩展到不同标记集时,组内和组间的预测精度观察到微小差异。与SNP数据相比,SNP+SNaP标记集具有更高的预测精度,对于株高,差异高达10%。类似地,GWAS SNP+SNaP标记集显示出比单独使用GWAS SNP和SNP标记集更高的精度,但在组内和组间预测中,与SNP+SNaP标记集的精度相似。总体而言,组内或交互作用的预测精度高于组间预测,并且纳入SNaP标记提高了组内和组间预测的精度。
基因组预测(GP)通过提高选择效率和缩短育种周期,为作物改良提供了重要机遇。甘蓝型油菜遗传基础狭窄,此前仅有少数研究利用GP探索其预测潜力。本研究利用NAM群体衍生的RILs(具有广泛的遗传多样性)全面评估了甘蓝型油菜四个性状的GP潜力,使用了八种不同的标记集和八种模型。总体观察到中等至高的预测精度,其中开花天数的预测精度最高(0.72)。与先前甘蓝型油菜的预测相比,本分析显示开花天数(0.71 vs 0.56)和株高(0.63 vs 0.5)的预测精度更高。千粒重在分析的四个性状中预测精度最低(0.40),这归因于其高度数量遗传的性质和较低的遗传力。环境因素、多基因控制和低遗传力性状会影响预测精度。因此,在预测模型中纳入多环境数据可能有助于提高千粒重等高度数量性状的预测精度。
预测精度受多种因素影响,包括预测模型的选择、标记密度、训练群体与测试群体间的遗传关系、训练群体规模、群体结构、连锁不平衡(LD)以及基因型与环境的互作。本研究发现,八种模型对甘蓝型油菜不同性状的预测精度影响 modest。测试兼具多性状预测和机器学习能力的模型可能有助于进一步提高预测精度。
群体的亲缘关系和规模能显著影响GP分析。拥有足够的标记多样性和适当规模的训练群体对于捕获整个群体结构至关重要。使用多个训练集表明,至少500个株系足以获得合理的预测精度,而1000个株系的训练群体规模似乎是本研究所用甘蓝型油菜群体的最优选择。然而,当株系数量超过2000时,其中两个性状的预测潜力开始下降,表明性状和标记关联的复杂性增加。似乎有必要考虑训练群体规模与标记密度线性缩放以获得最佳效益。同样,绝对群体规模的分析显示,预测精度随着群体规模的增加而增加,1500或更多株系的群体对预测有益。
群体结构会显著影响预测精度。在本研究中,我们在大型甘蓝型油菜NAM群体上进行了GP,同时考虑了两个主要组群/亚群体内部和之间的群体结构。我们的结果显示,亚群体内部的预测精度略高,这可能是由于遗传亲缘关系更近。
有观点认为增加标记数量并不总能提高预测潜力。使用未修剪的SNP标记集(约18K SNPs)进行分析确实提高了低遗传力性状千粒重的精度,但对所有其他性状影响甚微。这表明对简化标记密度需持谨慎态度,因为它可能导致欠拟合,特别是对于由多基因控制的复杂性状。然而,增加标记密度会增加统计复杂性,导致更长的计算时间且通常增加基因分型成本,还可能造成过拟合,对预测潜力产生负面影响。另一方面,基于与表型性状相关联的标记进行预测可以提高预测精度。通过选择与表型性状显著相关的标记,例如从GWAS分析中筛选出的高度显著标记,提供了淘汰潜力有限标记并降低预测统计复杂性的机会。因此,即使使用最少数量的标记(500个),对开花天数的预测精度也观察到提升(0.72)。这种方法将有助于减少GP所需的标记数量,最终降低成本和节省时间。然而,在选择标记数量时必须谨慎,因为可能会淘汰与微小效应相关的潜在标记。我们探讨了基于训练集(群体的80%)进行GWAS标记选择的效用,因为对整个群体进行GWAS可能会引入偏差。我们的结果表明,基于这种训练集方法得到的GP结果与使用整个群体进行GWAS标记选择获得的结果相当。
结构变异或插入缺失(indel)标记由于使用短读长测序平台识别复杂而常被忽视。然而,近期研究表明此类标记可产生显著效应并有助于识别目标性状。在本研究中,将SNaP标记纳入GWAS分析有助于识别与株高性状显著相关的标记,而这些标记原本可能被忽略。此外,一些额外的SNaP标记与先前SNP标记发现的开花天数和成熟天数性状区域高度相关。更重要的是,将SNaP标记纳入预测分析后,与单独使用SNP标记相比,精度提升高达15%。这强有力地表明SNaP标记可以极大地影响GP和性状鉴定,特别是在SNP标记稀少的区域,从而放大研究中的遗传增益。
本研究强调了GP在提高甘蓝型油菜选择效率、遗传增益和缩短育种周期方面的潜力。通过分析源自芸薹属Illumina 60K SNP芯片的不同类型标记集对四个性状的GP潜力,我们证明整合SNaP标记可显著提高预测精度,增幅可达15%。这种改进归因于SNaP标记提供了额外的基因组覆盖,特别是在可能受插入或缺失等结构变异影响的区域,增强了对影响关键性状的遗传变异的检测。纳入SNaP标记利用了被SNP标记忽视的遗传增益,为重要农艺性状的遗传架构提供了更全面的理解。这一发现为未来开发利用SNaP标记或其他结构变异标记潜力的研究开辟了道路。此外,纳入环境互作和探索替代预测模型(如机器学习技术)可能会进一步提高预测精度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号