
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多组学数据整合的深度集成学习框架DeEPsnap在人类必需基因预测中的应用
【字体: 大 中 小 】 时间:2025年07月22日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对人类必需基因预测的挑战,提出了一种创新的深度集成学习框架DeEPsnap。研究人员通过整合DNA/蛋白质序列、基因本体(GO)、蛋白质相互作用网络(PPI)、蛋白质复合体和蛋白质结构域等五类组学数据,开发了基于循环正弦退火机制的快照集成深度神经网络。实验显示该方法在10折交叉验证中达到AUROC 96.16%、AUPRC 93.83%的优异性能,显著优于传统机器学习模型,为癌症治疗靶点发现和合成生物学研究提供了新工具。
在生命科学领域,人类基因组中约20,000个基因构成了高度冗余的系统,但其中哪些是维持细胞生存不可或缺的"必需基因"(essential genes)?这个问题的答案不仅关乎对生命基本要素的理解,更与癌症治疗靶点发现、药物开发等应用密切相关。传统通过CRISPR/Cas9等实验方法鉴定必需基因存在成本高、耗时长等局限,而现有计算方法又难以整合多维度生物数据。来自邵阳学院信息科学与工程学院的Zhang Xue团队与东北大学等机构合作,在《Scientific Reports》发表了突破性研究成果,开发出名为DeEPsnap的深度集成学习框架,实现了人类必需基因的高精度预测。
研究团队创新性地采用了五类组学数据:从DNA/蛋白质序列提取89维特征;通过node2vec算法从包含17,762个节点、355,647条边的蛋白质相互作用网络(PPI)学习64维嵌入特征;基于基因本体(GO)富集分析构建100维特征;从蛋白质复合体数据提取参与复合体数量等特征;以及从蛋白质结构域数据计算包括逆频率和(SIDF)在内的特征。这些特征通过具有三层隐藏层的深度神经网络进行处理,并创新性地引入基于正弦函数的循环退火机制,在单次训练过程中获得多个快照模型集成,既提升了预测性能(AUROC提高1.05%)又避免了重复训练的计算开销。
研究结果显示,DeEPsnap在包含2009个必需基因和8414个非必需基因的数据集上表现出色。如图3所示,10折交叉验证的平均AUROC达到96.16%±0.59%,最佳单折性能更达到97%。与支持向量机(SVM)、随机森林(RF)等传统方法相比,DeEPsnap在AUPRC(93.83% vs 85.32%)等指标上均有显著提升。值得注意的是,即使单独使用网络嵌入特征时模型性能已优于序列特征,但如表3所示,序列特征与其他类型特征展现出更强的互补性,这揭示了不同组学数据在预测中的协同作用。
通过富集分析发现,预测出的必需基因显著富集于翻译、基因表达、核糖体生物发生等基础生命过程(图4a),以及细胞周期等关键通路(图4b),验证了模型预测的生物学合理性。该研究的创新点主要体现在三方面:首次将快照集成机制应用于必需基因预测,提出新颖的正弦循环退火算法;系统评估了五类组学特征对预测的贡献度;建立了目前精度最高的人类必需基因预测框架。
这项研究为癌症特异性必需基因预测、药物靶点发现等后续工作奠定了基础。正如作者在讨论中指出的,未来可通过引入表观基因组学数据、开发跨细胞系迁移学习方法进一步提升预测能力。该成果不仅为必需基因研究提供了新工具,其提出的多组学数据整合策略和快照集成机制也为其他生物医学预测问题提供了重要参考。
生物通微信公众号
知名企业招聘