编辑推荐:
为提升比利时蓝牛基因组选择(GS)准确性,研究人员评估相关模型,发现功能注释可提高可靠性,仍有改进空间。
解锁比利时蓝牛遗传密码:基因组选择模型新探索
在现代畜牧业蓬勃发展的浪潮中,精准育种成为提升家畜品质、满足不断增长的市场需求的关键 “钥匙”。基因组选择(Genomic Selection,GS)技术凭借高通量基因分型技术的东风,在家畜育种领域掀起了一场革新风暴,让育种工作从传统的 “经验摸索” 迈向精准的 “基因导航” 时代。然而,当全基因组序列(Whole Genome Sequence,WGS)数据这一 “宝藏” 出现时,人们原本期待它能为基因组选择带来质的飞跃,大幅提升预测准确性,可早期研究却令人有些失望。无论是模拟数据还是真实数据的研究都显示,在预测方法不变的情况下,使用 WGS 数据进行预测,准确性提升微乎其微。就好比拿着一张无比精确的地图,却因为没有合适的导航仪,无法充分利用它找到精准的路线。这背后的原因错综复杂,其中罕见变异的低填充准确性以及功能注释的不完善,成为了阻碍 WGS 数据发挥强大威力的 “绊脚石”。
比利时蓝牛,作为肉牛界的 “明星” 品种,因其出色的肌肉发育特性备受关注。但在其育种过程中,如何更精准地选择具有优良肌肉发育基因的个体,一直是育种专家们苦苦思索的难题。为了攻克这一难关,来自比利时列日大学动物基因组学单位(Unit of Animal Genomics, GIGA-R & Faculty of Veterinary Medicine, University of Liège)和瓦隆育种者协会(Walloon Breeders Association)的 Can Yuan、Alain Gillon 等研究人员挺身而出,决心探索出一条提升比利时蓝牛基因组选择准确性的新道路。他们的研究成果发表在《Genetics Selection Evolution》杂志上,为该领域带来了新的曙光。
在这场科研征程中,研究人员采用了一系列先进且巧妙的技术方法。首先是基因型填充技术,他们从 18324 头比利时蓝牛的基因数据出发,通过多步填充,将基因数据提升到序列水平,就像是为基因数据搭建了层层 “云梯”,让其不断升级。在这个过程中,他们严格筛选变异位点,去除那些 “不合格”(低检出率、低次要等位基因频率、偏离哈迪 - 温伯格平衡)的位点,确保数据的高质量。随后,研究人员运用了多种基因组预测模型,包括 GBLUP(基因组最佳线性无偏预测)、BayesR、BayesCπ、BSLMM(贝叶斯稀疏线性混合模型)等,还创新性地结合功能注释,开发了 MGFBLUP(多基因组特征 BLUP)和 BayesRR - RC(贝叶斯分组回归混合模型)等模型,从不同角度 “进攻”,试图找到最精准的预测模型。为了评估这些模型的优劣,他们精心设计了交叉验证实验,将数据巧妙地划分为参考群体和目标群体,反复比较不同模型在不同条件下的预测准确性。
下面让我们来深入了解一下研究人员的重要发现:
- 全基因组序列数据的力量:研究人员对比了使用中等密度标记(MMD)阵列和全基因组序列数据的模型预测准确性。结果令人眼前一亮,使用 WGS 数据的模型可靠性显著提升,平均提高了 1.8%(以 BayesR 模型为例)。这表明 WGS 数据就像一把精准的 “手术刀”,能够更准确地剖析比利时蓝牛的遗传信息,捕捉到更多影响肌肉发育的关键基因变异。但遗憾的是,这种提升有时并不显著,主要是因为常见变异在遗传方差中占主导地位,而罕见变异由于填充准确性低,无法充分发挥其作用,就像拼图中缺失了关键的几块,使得 WGS 数据的潜力无法完全释放。
- 预测模型的较量:在众多预测模型的 “大比拼” 中,不同模型各有千秋。当使用全序列数据时,BayesR 和 BayesRR - RC 等贝叶斯模型表现出色,BayesR 的可靠性比 GBLUP - S 平均高出 1.2%。但有趣的是,使用标准化基因型的 GBLUP - S 在选择常见变异时,可靠性反而增加,这暗示着比利时蓝牛的肌肉发育性状可能受到定向选择的影响。而当使用子集 SNP 时,BSLMM 脱颖而出,成为当之无愧的 “冠军” 模型,它就像一个精准的 “探测器”,能够敏锐地捕捉到那些对肌肉发育性状有重要影响的变异,结合多基因模型和少量具有额外效应的变异,展现出了强大的预测能力。
- 功能注释的价值:功能注释的加入,为基因组选择带来了新的变化。对于贝叶斯混合模型来说,虽然它在人类研究中取得了显著成效,但在比利时蓝牛研究中,效果却不尽如人意。这是因为家畜和人类在种群结构、遗传架构等方面存在巨大差异,就像两个不同的 “生态系统”,使得功能注释在比利时蓝牛中的应用面临诸多挑战。不过,MGFBLUP 框架凭借其独特的灵活性,在使用功能注释时,比 GBLUP 模型的准确性略有提高,而 BayesRR - RC 在使用功能注释时,准确性却有所下降,这也让研究人员意识到,如何更好地利用功能注释,还需要进一步探索。
- 标记子集选择策略:研究人员还探索了基于功能注释和连锁不平衡(LD)修剪的标记子集选择策略。结果发现,这两种策略都能在降低计算成本的同时,达到与使用全序列数据相当的准确性。特别是基于功能注释选择的标记子集,表现更为突出。其中,BSLMM 结合功能注释选择的标记子集,成为了基因组预测的 “最佳拍档”,可靠性最高,比使用 MMD 标记的 GBLUP - C 模型有了显著提升,这为比利时蓝牛的精准育种提供了一种高效、低成本的新策略。
这项研究意义重大,就像在比利时蓝牛的育种道路上点亮了一盏明灯。它不仅为比利时蓝牛的精准育种提供了科学依据和实用方法,让育种专家们能够更准确地选择优良品种,加速品种改良进程;还为其他家畜的基因组选择研究提供了宝贵的借鉴经验,推动了整个家畜育种领域的发展。不过,研究人员也清醒地认识到,目前的研究还存在一些不足之处。比如,功能注释还不够完善,难以准确识别那些真正对性状有重要影响的变异;罕见变异的利用仍然是一个难题,需要进一步提高其填充准确性。未来,研究人员将继续努力,不断改进功能注释方法,探索更有效的罕见变异利用策略,为家畜育种事业的发展注入新的活力,让比利时蓝牛等家畜品种在精准育种的道路上越走越远,为满足全球日益增长的肉类需求贡献更多力量。