编辑推荐:
为解决蛋白质结合位点预测难题,研究人员开发 Deep-ProBind 模型,准确率超 90%,推动药物研发。
在生命的微观世界里,蛋白质结合肽(binding proteins)如同忙碌的 “分子邮递员”,它们能精准地与特定分子,如 DNA、RNA 或肽段相结合,在细胞的各种生命活动中发挥着至关重要的作用。从调节细胞信号传导,到参与物质运输,再到调控酶的活性,都有它们活跃的身影。比如胰岛素这种肽类激素,能精准地与相应的受体蛋白结合,从而调节血糖水平,维持身体的正常代谢。然而,想要 “揪出” 这些蛋白质结合肽并非易事。传统的实验方法就像大海捞针,不仅成本高昂,而且耗时极长。现有的基于序列的预测方法,又像是戴着 “有色眼镜” 看问题,过于关注序列的局部特征,却忽视了蛋白质结构信息,导致预测的准确性大打折扣。
为了攻克这一难题,来自 Abdul Wali Khan University Mardan、Purdue University 等多个研究机构的研究人员开展了深入研究。他们成功开发出一种名为 Deep-ProBind 的强大预测模型,并将研究成果发表在《BMC Bioinformatics》上。这一模型的出现,为蛋白质结合肽的预测领域带来了新的曙光。
在研究过程中,研究人员运用了多种关键技术方法。他们首先从 [24] 中获取基准数据集,构建了用于训练和测试的样本。在特征编码方面,利用位置特异性评分矩阵(PSSM)、伪位置特异性评分矩阵 - 离散小波变换(PsePSSM - DWT)和基于 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)等方法,对肽段序列进行特征提取。之后,采用 Shapley 可加性解释(SHapley Additive exPlanations,SHAP)算法进行特征选择,挑选出最具影响力的特征。最后,使用深度神经网络(Deep Neural Network,DNN)进行分类预测。
研究结果主要从以下几个方面展开:
- 模型训练与超参数优化:研究人员使用基准数据集对 DNN 模型进行训练,并运用网格搜索算法寻找最佳超参数。结果发现,当使用 Tanh 作为激活函数,学习率为 0.1 时,模型在基准数据集上的准确率最高,达到 92.67%。同时,经过 50 个训练轮次后,模型的误差率稳定下降,准确率显著提升,确定了 50 轮为最佳训练轮次。
- 性能分析:在不同序列特征和混合特征的对比实验中,混合特征方法结合了多种特征集的优势,表现更优。经过特征选择后,模型的性能进一步提升,在训练集上的准确率达到 92.67%,独立测试集上的准确率更是高达 93.62%,在敏感度(Sensitivity,SN)、特异性(Specificity,SP)、F1 评分和马修斯相关系数(Matthew’s Correlation Coefficient,MCC)等指标上也表现出色。
- 与其他模型的性能比较:与随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)等常见机器学习算法以及现有模型 PepBind - SVM 相比,Deep - ProBind 在训练集和独立测试集上均表现出更高的准确率和 MCC 值,凸显了其在预测蛋白质结合肽方面的优势。
在研究结论和讨论部分,Deep - ProBind 模型展现出了卓越的性能,为蛋白质结合肽的精准预测提供了可靠的工具。这对于药物研发和治疗方法的开发具有重要意义,有助于加速发现具有潜在治疗作用的肽类药物,推动生命科学和健康医学领域的发展。不过,目前研究也存在一定的局限性,例如数据集相对较小,可能影响模型的泛化能力。未来,研究人员计划通过整合迁移学习、优化模型架构、采用并行编程等方法进一步改进模型,同时纳入更广泛和多样的数据集,以提升模型的性能和适用性,为相关领域的研究带来更多突破。<