EGP Hybrid-ML 模型:精准预测必需基因,开启生命科学研究新篇

【字体: 时间:2025年04月26日 来源:BMC Biology 4.4

编辑推荐:

  在生命科学领域,必需基因的研究意义重大。为解决机器学习预测必需基因时面临的特征提取、数据不平衡及跨物种泛化等难题,研究人员开展基于图卷积神经网络(GCN)和双向长短期记忆网络(Bi-LSTM)的 EGP Hybrid-ML 模型研究,结果显示该模型预测性能优异,为相关研究提供新工具。

  在生命的奇妙旅程中,必需基因扮演着至关重要的角色。它们是物种生存、发育和遗传的基石,决定着生命最基本的进程。研究必需基因,不仅能让我们深入了解生命的本质,还能为攻克各种疾病找到潜在的治疗靶点。然而,探索必需基因的道路并不平坦。传统的实验方法,如单基因敲除、条件基因敲除等,虽然是识别必需基因的 “金标准”,但耗时久、成本高,还容易受到实验条件的限制。于是,计算方法应运而生,成为了探索必需基因的重要辅助工具。其中,机器学习和深度学习方法备受关注,不过它们也面临着诸多挑战,比如基因特征的有效提取、数据不平衡的影响以及跨物种预测的难题等。
为了突破这些困境,来自赣南师范大学、江苏科技大学以及中国农业科学院蚕业研究所等机构的研究人员开展了一项极具意义的研究。他们构建了一种融合图卷积神经网络(Graph Convolutional Neural Networks,GCN)和双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM),并结合注意力机制和多维多元特征编码的混合机器学习模型 ——EGP Hybrid-ML,用于必需基因的预测。这项研究成果发表在《BMC Biology》上,为生命科学和医学研究领域带来了新的曙光。

研究人员在开展此项研究时,运用了多种关键技术方法。首先,从公共必需基因数据库(DEG)收集了涵盖古细菌、细菌和真核生物三大生物领域 31 个物种的实验数据,并利用 CD-HIT 算法处理数据以减少冗余和消除同源性偏差。在模型构建方面,综合运用 GCN、Bi-LSTM 和注意力机制。GCN 用于从基因序列可视化图形中提取特征编码信息;Bi-LSTM 结合注意力机制,评估基因序列中各特征的重要性;通过多种特征编码方法,整合基因的时间序列和序列信息。最后,采用交叉验证评估模型的跨物种预测性能。

下面让我们来看看具体的研究结果:

  • 数据收集与模型训练:研究人员从 DEG 数据库精心筛选数据,构建了包含 87,782 条必需和非必需基因数据的数据集,并将其划分为训练集(70%)和测试集(30%)。在 16GB 内存、Intel (R) Core i7 - 12700F 处理器的硬件配置下,基于 Windows 10 64 位操作系统训练 EGP Hybrid-ML 模型。训练时使用 Adam 优化器,学习率设为 0.001,共训练 1000 轮,实验结果取 6 次重复试验的平均值以确保可靠性。
  • 模型性能评估:从训练集和测试集的预测结果来看,EGP Hybrid-ML 模型表现出色。在训练集上,各项评估指标(如灵敏度 SN、特异性 SP、准确率 ACC 等)分布广泛,体现了测试数据的多样性以及模型在训练过程中有效减少误差的能力;在测试集上,指标分布范围变窄,表明模型对新数据的稳定性。模型在不同物种上的平均 ACC 达到 0.9,峰值接近 0.98,证明其具有卓越的预测能力。
  • 不同因素对模型的影响
    • 基因类型的影响:通过预测 31 个物种的必需基因和 23 个物种的非必需基因发现,模型在预测非必需基因时性能更优,这可能与必需基因的特性以及训练时非必需基因数据量较多有关。
    • 特征编码的影响:研究人员对比了多种编码策略,发现采用多维多元特征编码的 Code 9 表现最佳,能有效整合时间序列和基因序列信息,提升模型预测准确性。
    • 数据不平衡的影响:分析不同物种必需和非必需基因比例对模型的影响发现,模型性能与两种基因的比例相关,在两者比例接近平衡时表现尤为突出,说明模型能有效应对数据不平衡问题。
    • 跨物种验证:通过跨物种验证实验,发现模型在使用同一物种数据训练和测试时性能最佳,在同源物种间性能适中,在非同源物种间性能较低,但整体仍表现良好,证明了模型具有良好的泛化能力。

  • 与其他模型的比较:与 9 种最新的监督和无监督模型对比,EGP Hybrid-ML 模型在所有性能指标上均超过 0.9,展现出显著优势,且计算时间在可接受范围内。
  • 消融研究:对 EGP Hybrid-ML 模型进行消融实验,去除注意力机制、GCN、Bi-LSTM 等模块后发现,各模块对模型性能均有重要贡献,其中 GCN 贡献最大,其次是注意力机制和 Bi-LSTM。

研究结论和讨论部分指出,EGP Hybrid-ML 模型在预测必需基因和非必需基因方面表现卓越,为生物信息学、计算机科学、化学和医学药理学等多学科提供了强大的计算工具。不过,研究仍存在一些待探索的方向,如生物大数据的利用、机器学习模型的可解释性以及特征提取与关键研究问题的关系等。但无论如何,这项研究为跨学科领域的发展迈出了重要一步,有望推动生命科学和健康医学领域的进一步发展,助力我们更好地理解生命奥秘、攻克疾病难题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号