CropARNet:融合注意力与残差模块的作物基因组预测深度学习框架及其在分子育种中的应用

【字体: 时间:2025年08月31日 来源:Crop Design CS3.3

编辑推荐:

  为解决基因组选择(GS)中高维数据“维度灾难”和非加性遗传效应捕获不足的难题,浙江大学团队开发了融合自注意力机制与深度残差网络的CropARNet框架。该研究在4种主要作物53个性状上验证显示,CropARNet预测准确率在29个性状中排名第一,PCC最高提升37.8%,并能利用转录组数据预测表型,为作物复杂性状的分子育种提供了高效工具。

  

随着全球气候变化和耕地资源紧张,作物育种正面临前所未有的挑战。传统育种方法周期长、效率低,而基因组选择(Genomic Selection, GS)技术的出现为育种带来了革命性变革。GS通过全基因组标记分析快速筛选优良基因型,相比仅针对主效QTL的标记辅助选择(MAS),能够同时捕捉主效和微效QTL,特别适用于多基因控制的复杂性状。然而,现有GS方法面临两大瓶颈:一是当标记数量(p)远大于样本量(n)时的高维数据难题;二是线性模型难以捕捉显性和上位性等非加性效应。这些限制使得海量测序数据的潜力无法充分释放。

深度学习(Deep Learning, DL)为解决这些难题提供了新思路。从早期基于卷积神经网络(CNN)的DeepGS,到整合三维基因组互作的SoyDNGP,再到引入注意力机制的Cropformer,DL模型能自动学习基因型-表型的复杂映射关系。然而,现有模型在预测精度、计算效率和可解释性方面仍有提升空间。为此,浙江大学团队在《Crop Design》发表研究,提出了创新性解决方案。

研究团队开发了CropARNet框架,其核心技术包括:(1)分子权重模块(Molecular Weight module),通过多层全连接网络生成SNP位点的注意力权重;(2)残差连接模块(Residual Connect module),通过残差连接增强特征信号;(3)采用GELU(Gaussian Error Linear Unit)激活函数优化梯度传播。研究利用作物GS数据库的4个物种(水稻、玉米、棉花、谷子)53个性状数据,通过5折交叉验证对比了GBLUP、XGBoost等8种算法性能。

预测性能验证

在5820份玉米材料中,CropARNet对穗行数(ERN)的预测准确率(PCC=0.9031)较DNNGP提升11.4%;在棉花纤维长度预测中PCC达0.79,较GBLUP提升12.6%。值得注意的是,模型在转录组数据预测中表现突出,对棉纤维百分率的PCC达0.70,显示多组学整合潜力。

架构验证实验

通过消融实验证实,移除分子权重模块会使水稻抽穗期预测PCC下降14.98%,而移除残差连接模块导致单株产量预测PCC暴跌89.52%,表明两个模块的协同作用对模型性能至关重要。

计算效率优势

在大规模玉米数据集(454万标记)上,CropARNet训练时间(19.3秒)仅为Cropformer的1/10,内存占用仅4GB,展现出优异的可扩展性。

该研究的突破性在于:(1)创新性地将生物学先验知识融入网络设计,通过注意力权重模拟QTL效应分布;(2)首次证明残差连接能显著缓解基因组数据中的梯度消失问题;(3)开创性地实现转录组数据直接预测表型,为多组学育种奠定基础。正如讨论部分指出,未来通过整合表观基因组等更多组学数据,并结合SHAP等可解释性算法,有望进一步释放深度学习在精准育种中的潜力。开源工具(https://github.com/Zhoushuchang-lab/CropARNet)的发布将加速该技术在育种实践中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号