《BMC Genomics》:Integration of epigenomic and genomic data to predict residual feed intake and the feed conversion ratio in dairy sheep via machine learning algorithms
在当今世界,人口持续增长,对高营养食品的需求也与日俱增。预计到 2100 年,全球人口将达到 109 亿。在畜牧业中,饲料效率(Feed Efficiency,FE)成为影响生产效益和可持续性的关键因素。饲料成本在奶牛场可变成本中占比高达 75%,高效的饲料利用不仅能降低成本,还能减少环境影响。然而,目前评估奶羊 FE 仍面临诸多挑战,缺乏统一的计算模型,剩余采食量(Residual Feed Intake,RFI)和饲料转化率(Feed Conversion Ratio,FCR)的遗传力研究较少,且尚未有研究评估表观遗传标记对奶羊 FE 的贡献。因此,开展相关研究对提升奶羊养殖效益和推动畜牧业可持续发展至关重要。
西班牙莱昂大学(Universidad de León)的研究人员为深入探究 FE 相关机制,开展了一项极具意义的研究。他们旨在识别不同 RFI、FCR 及两者共识(Consensus,Cons)组动物间的差异甲基化位点(Differentially Methylated Loci,DMLs)和区域(DMRs),并评估机器学习(Machine Learning,ML)模型利用这些区域的甲基化水平及遗传变异预测 FE 的准确性。该研究成果发表在《BMC Genomics》上。
研究人员采用了多种关键技术方法。首先,选取 21 只西班牙阿萨夫母羊,在其第二个泌乳期进行干物质采食量(Dry Matter Intake,DMI)和产奶量等指标的测定,以此计算 FCR 和 RFI。接着,从牛奶体细胞中提取 DNA,进行全基因组亚硫酸氢盐测序(Whole Genome Bisulfite Sequencing,WGBS),并利用多种软件进行质量控制、序列比对和甲基化位点检测。此外,通过特定的 R 包进行基因注释、基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。最后,运用多层前馈人工神经网络(deeplearning)、随机森林(Random Forest,RF)和极端梯度提升(extreme gradient boosting,xgboost)等 ML 模型进行预测分析。
机器学习模型预测:比较不同 ML 模型对 RFI 和 FCR 的预测性能,发现 RF 预测 mRFI_RFI、mCons_RFI 和 mRFI_RFI + VARs 时,平均均方根误差(Root Mean Squared Error,RMSE)最小,为 0.17;deeplearning 预测 mCons_RFI + VARs 和 mCons_FCR + VARs 时,平均 Spearman 相关系数平方(rho2)最大,为 0.20。最终确定最佳模型为 xgboost 预测 mRFI_RFI(RMSE = 0.10,rho2 = 0.86)和 RF 预测 mCons_RFI + VARs(RMSE = 0.07,rho2 = 0.62)。
研究结论和讨论部分指出,该研究揭示了奶羊不同 FE 组间的表观遗传差异,这些差异与蛋白质消化吸收、激素合成与分泌等重要代谢通路相关。同时,研究表明表观遗传信息和遗传变异具有预测奶羊 RFI 和 FCR 的潜力,尽管样本量有限且存在数据变异性等问题,但为后续研究提供了新的方向和思路。此研究有助于深入理解 FE 的生物学机制,为奶羊遗传选育和营养管理提供重要依据,有望推动奶羊产业的高效、可持续发展。