《MtCro:多任务深度学习框架助力作物多性状基因组精准预测,加速植物遗传育种进程》

【字体: 时间:2025年02月10日 来源:Plant Methods 4.7

编辑推荐:

  为解决传统基因组预测模型在多性状预测时忽视表型间相关性、效率低等问题,研究人员开展了基于多任务学习的作物基因组预测研究。结果显示,MtCro 模型性能优于主流模型,能有效捕捉植物表型,提升预测准确性,为植物遗传育种提供新框架。

  随着全球人口增长和气候变化,粮食安全面临巨大挑战。传统的作物育种方式周期长、效率低,难以满足未来对农作物产量和质量的需求。基因组选择(Genomic Selection,GS)作为一项新兴技术,利用全基因组标记进行基因组预测,能够加速遗传进展,提高育种效率,在植物育种领域得到了广泛应用 。然而,现有的预测模型在多性状预测方面存在诸多不足。传统模型通常将数据集按单性状拆分,分别训练模型,这不仅忽视了不同表型之间的遗传相关性,还增加了模型训练的复杂性和数据利用的低效率。一些多性状预测模型虽有尝试,但往往采用相同的模型权重处理所有表型,未能充分考虑各表型的特异性,导致预测性能受限。
为了突破这些困境,南京理工大学计算机科学与工程学院以及中国农业科学院作物科学研究所的研究人员展开了深入研究。他们提出了一种名为 MtCro(multi-task deep learning framework improves multi-trait genomic prediction of crops)的多任务深度学习框架,旨在更高效地进行作物多性状基因组预测。该研究成果发表在《Plant Methods》杂志上。

研究人员在研究中运用了多种关键技术方法。首先,他们使用了三个包含小麦和玉米不同表型数据的数据集,即 Maize8652、Wheat2000 和 Wheat599。针对数据中高维的基因型数据,采用主成分分析(Principal Component Analysis,PCA)进行降维处理 。在模型构建方面,MtCro 模型引入混合专家机制,由输入层、多个专家组、门控网络和塔网络构成。通过这些技术,研究人员对模型性能进行评估,并与多种主流模型进行对比。

研究结果


  1. 表型相关性分析:利用皮尔逊相关系数(Pearson correlation coefficient)分析三个数据集中不同表型间的相关性,发现不同表型以及同一表型在不同环境条件下都存在显著相关性。如在 Wheat2000 数据集中,千粒重(TKW)和籽粒宽度(WIDTH)的相关性高达 0.76;在 Wheat599 数据集中,ENV2 和 ENV3 环境下的表型相关性达到 0.66;Maize8652 数据集中,抽雄天数(DTT)和株高(PH)的相关性为 0.44 。
  2. MtCro 模型的参数设置与实验验证:基于 PyTorch 框架实现 MtCro 模型,设置学习率为 0.0001,使用皮尔逊分布损失函数,批量大小为 32,训练轮数为 100,并设置了权重衰减率和早停准则。通过实验研究专家网络中多层感知器(Multilayer Perceptron,MLP)层数对模型性能的影响,发现随着层数增加,模型性能先提升后下降,6 层时效果最佳。
  3. MtCro 与其他主流方法的比较:将 MtCro 与 GBLUP、LightGBM、SVR、DeepGS、DLGWAS、DNNGP 和 SoyDNGP 等七种主流单任务学习方法进行对比。在 Wheat2000 数据集上,MtCro 在所有表型上均优于其他模型,在蛋白质含量(PROT)表型上优势尤为明显,比表现最佳的单任务模型高出 8%;在 Wheat599 数据集上,MtCro 在所有表型上也展现出最优效果;在 Maize8652 数据集上,对于相关性较低的穗重(EW)表型,MtCro 比第二好的 LightGBM 模型高出 1%,对于相关性较高的 DTT 和 PH 表型,分别高出 2% 和 3%。此外,多任务模型可在一次训练中学习多个表型,而其他方法需根据预测表型数量训练多个模型,MtCro 在训练成本上具有显著优势。
  4. 揭示多任务学习的优势:设计单塔 MtCro 模型与多塔 MtCro 模型进行对比。结果显示,在考虑其他表型时,多塔 MtCro 模型在所有表型上的预测性能均优于单塔模型。在 Wheat2000 数据集中,LENGTH 表型预测性能提升 1%,TKW、WIDTH 和 TESTW 表型提升 2 - 3%,HARD 和 PROT 表型提升 4 - 5% 。在 Wheat599 和 Maize8652 数据集中,虽表型相关性较弱,但多塔模型仍有一定优势,不过在 Wheat599 数据集中的 ENV1 表型上出现了 1% 的负向影响,推测是该表型与其他环境表型相关性极低导致。
  5. 模型性能和稳健性的综合评估:使用最佳线性无偏估计(Best Linear Unbiased Estimates,BLUEs)评估模型在 Wheat599 数据集不同环境下的预测准确性,MtCro 在所有环境下均实现最佳预测性能,比多表型预测模型 MTUE 在 ENV4 环境中高出 0.6 分。通过五折交叉验证评估模型稳健性,结果表明 MtCro 在所有表型上的标准差最小,在不同参数初始化下也保持最高的稳健性。

研究结论与讨论


MtCro 模型能够有效整合多个任务,同时预测作物的多个性状,在多任务基因组预测方面展现出优异性能。它为育种者提供了一种全新的框架,有助于筛选优良育种系,加速育种周期。然而,该模型也存在一些局限性。例如,模型未考虑环境表型变异,无法捕捉复杂的基因型 - 环境关系;目前仅以作物基因组数据作为输入,未融合转录组、结构变异(SV)和蛋白质组等多模态信息;模型性能依赖于选定的训练超参数,还需进一步优化和调整。未来研究可探索如何通过多任务学习进一步提升模型预测性能,降低神经网络训练的随机性,设计新的损失函数以整合更多任务等方向。总的来说,MtCro 模型为作物基因组预测开辟了新道路,对推动植物遗传育种发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号