编辑推荐:
为解决基因组预测(GP)中特征选择、SNP 表示及池化策略等问题,研究人员开展 EBMGP 模型的研究。结果显示 EBMGP 在多数任务中表现优异,能有效提高预测准确性,对动植物育种意义重大。
在农业领域,随着全球人口增长,对农产品的需求不断攀升,传统育种方式周期长、效率低,难以满足日益增长的需求。基因组选择(Genomic Selection,GS)技术应运而生,它通过利用全基因组标记预测未观察群体的育种值,能加速育种进程,成为现代动植物育种的关键手段。然而,现有的基因组预测模型存在诸多问题。例如,传统的参数模型如基因组最佳线性无偏预测(Genomic Best Linear Unbiased Prediction,GBLUP)和贝叶斯模型,难以捕捉单个 SNP(单核苷酸多态性,Single Nucleotide Polymorphism)的精确影响,也无法有效处理 SNP 之间复杂的相互作用,尤其是在复杂性状的预测上表现欠佳。
深度学习在基因组预测领域虽有进展,但也面临挑战。一方面,“p>>n” 问题,即特征数量远远超过样本数量,限制了深度学习模型的发展;另一方面,大多数现有模型使用 one - hot 编码表示 SNP,这种方式孤立地看待每个 SNP,忽略了它们之间的相互关系,导致模型难以区分具有相同基因型的 SNP 的功能差异。此外,传统的池化方法如最大池化和平均池化容易造成信息丢失,无法动态优化特征。
为了攻克这些难题,来自湖南农业大学、湖南第一师范学院等机构的研究人员开展了一项关于基因组预测的研究。他们提出了一种全新的深度学习模型 EBMGP(Elastic Net feature selection and bidirectional encoder representations from transformer's embedding and multi - head attention pooling,基于弹性网络特征选择、Transformer 嵌入的双向编码器表示和多头注意力池化的基因组预测模型)。研究结果表明,EBMGP 在多个数据集上表现出色,在 16 个任务中的 13 个任务上优于其他竞争模型,预测准确性提升幅度在 0.74% - 9.55% 之间。这一成果对动植物育种意义重大,它能够帮助育种者更精准地做出选择决策,加速遗传增益,推动动植物育种领域的发展,相关研究成果发表在《Theoretical and Applied Genetics》上。
研究人员为开展此项研究,运用了多种关键技术方法。首先,利用四个不同的动植物数据集,包括水稻、大豆、高粱和荷斯坦牛数据集,这些数据集具有不同数量的 SNP 和不同的基因组结构,用于评估模型的预测准确性和泛化能力。其次,采用弹性网络(Elastic Net,EN)进行特征选择,以减少噪声和计算成本。再者,通过 BERT(Bidirectional Encoder Representations from Transformers)嵌入将 SNP 类比为人类自然语言进行表示,并引入多头注意力池化(Multi - head Attention Pooling,MAP)策略,提高模型对特征的理解和处理能力。
研究结果主要包括以下几个方面:
- 特征选择对 EBMGP 的影响:研究发现,不同数据集对特征数量的需求不同。对于样本与特征比例较小的数据集,需要更多特征来保持预测准确性;而样本与特征比例较大的数据集,选择较少特征更有利。例如,在水稻数据集中,种子宽度(Seed Width,SW)、剑叶宽度(Flag Leaf Width,FLW)和每穗粒数(Seed Number Per Panicle,SNPP)在使用 5000 个预选 SNP 时预测性能最佳,直链淀粉含量(Amylose Content,AC)在使用 1000 个 SNP 时准确性最高;在大豆数据集中,3000 个 SNP 的子集能获得最准确的预测结果1。
- SNP 表示的比较:与 one - hot 编码相比,BERT 嵌入能更有效地捕捉 SNP 之间的复杂关联。当使用 BERT 嵌入且设置较高的 LD(连锁不平衡,Linkage Disequilibrium)阈值进行语义分割时,模型的预测准确性更高。例如,在水稻 AC 预测任务中,BERT 嵌入比 one - hot 编码的预测准确性提高了 5.52%。此外,将 BERT 嵌入应用于 SoyDNGP 模型,也能显著提升其预测准确性2。
- 池化策略对 EBMGP 性能的影响:引入的多头注意力池化(MAP)在小样本数据集上表现出色,能有效提高模型预测准确性并降低均方误差(Mean Squared Error,MSE)。在大样本数据集中,虽然不同池化方法的预测准确性差异不显著,但 MAP 仍能达到最低的 MSE。例如,在水稻数据集上,配备 MAP 的 EBMGP 平均预测准确性为 0.7377,比表现第二好的软池化(Soft Pooling,SP)高出 1.77%3。
- 非线性关系的评估:通过核密度图和正交距离回归(Orthogonal Distance Regression,ODR)分析发现,EBMGP 能有效捕捉非线性关系。在水稻、高粱和牛的数据集中,预测值与观测值之间呈现非线性趋势,而大豆数据集中则主要呈现线性关系。去除 GELU 激活函数的消融实验表明,该函数对捕捉非线性关系具有重要作用4。
- EBMGP 与其他 GP 模型的比较:EBMGP 在与七种常用 GP 模型的比较中,展现出了较高的预测准确性和鲁棒的泛化能力。在 16 个任务中,EBMGP 的总体平均预测准确性达到 0.6565,在 13 个任务中获得最高预测准确性,在 5 个任务中达到最低 MSE。不过,EBMGP 在小数据集上的表现稳定性有待提高,而传统模型如 Bayes B 在小数据集上较为稳定,但在捕捉复杂关系方面能力较弱5。
研究结论和讨论部分指出,EBMGP 为基因组选择提供了一种有效的工具,尤其在样本与特征比例较高的数据集上表现突出。通过整合 LD 信息,EBMGP 提高了基因组预测的准确性,对多基因控制的复杂性状育种具有重要意义。此外,EBMGP 在不同数据集上表现稳定,具有适应不同育种群体和环境的潜力。然而,该模型也存在一些需要改进的地方,如在小数据集上的性能稳定性、SNP 序列语义分割方法的优化以及计算效率的提升等。未来研究可通过采用更先进的嵌入策略、并行计算框架和降维技术等,进一步优化 EBMGP,使其更适用于大规模育种计划和基因组研究。总的来说,EBMGP 的出现为动植物育种领域带来了新的希望,有望推动数据驱动的育种决策取得更大进展。