基于集成算法与关联特征的小分子配体结合残基精准预测新方法
《Scientific Reports》:Predicting the binding residues of four small molecule ligands by utilizing ensemble algorithms with additional correlation features
【字体:
大
中
小
】
时间:2025年11月12日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对蛋白质-小分子配体结合残基预测精度低的难题,开发了融合SMOTE过采样与深度卷积神经网络(S-DCNN)的集成算法,创新性引入邻域关联、残基对、中心模体和PSSM关联四类特征参数。在自建数据集和公开数据集上验证显示,该方法对ATP/ADP/GDP/NAD四种小分子配体的结合残基预测性能显著提升,最高MCC值达0.5887,为蛋白质功能注释和分子药物设计提供了新工具。
在生命活动的精密舞台上,蛋白质与小型分子配体的结合如同精准的钥匙插入锁孔,调控着能量代谢、信号传导等关键生物学过程。ATP、ADP、GDP和NAD这四种结构相似的小分子配体,分别扮演着"能量货币"、"血小板聚集调控因子"、"细胞通讯信使"和"催化反应辅酶"的重要角色。然而,要准确预测蛋白质序列中哪些氨基酸残基会与这些配体结合,却一直是生物信息学领域的重大挑战。
传统预测方法主要依赖氨基酸组成、保守性信息等基础特征,但忽略了残基间的相互关联性。更棘手的是,真实数据中结合残基(正样本)与非结合残基(负样本)数量极度不平衡,导致预测模型容易产生偏差。正如锁匠需要同时观察钥匙齿纹的排列规律和锁芯内部结构,研究人员意识到必须开发能够捕捉残基间关联特征的新型算法,才能在蛋白质-配体结合位点预测领域取得突破。
在这项发表于《Scientific Reports》的研究中,内蒙古工业大学的研究团队开创性地将四种关联特征与集成算法相结合,建立了小分子配体结合残基的高精度预测模型。他们发现,通过分析残基间的空间关联模式、优选残基对组合、中心模体分类以及PSSM(位置特异性评分矩阵)相关性特征,能够显著提升预测性能。特别值得关注的是,团队设计的S-DCNN算法巧妙融合了SMOTE过采样技术和深度卷积神经网络,既解决了样本不平衡问题,又实现了深层特征学习。
关键技术方法包括:从BioLip数据库筛选高分辨率蛋白链构建数据集;采用滑动窗口法提取蛋白片段;基于PSI-BLAST生成PSSM矩阵;创新性提取邻域关联、残基对、中心模体和PSSM关联四类特征;开发融合SMOTE过采样与DCNN的S-DCNN集成算法;使用五折交叉验证和独立测试评估性能。
研究团队在基础特征参数(氨基酸组成、保守性信息等)基础上,引入了四类创新性关联特征。其中邻域关联特征通过统计结合残基间的距离分布发现,相邻结合残基(距离为0)的出现概率最高。统计分析显示,正负样本中氨基酸二肽组成存在显著差异,ΔP值分类明确了特征参数的区分能力。
基于优选氨基酸组合形成的残基对分析表明,特定残基对的结合概率显著高于随机配对。以ADP为例,从G、S、T三个优选氨基酸形成的9个残基对中,筛选出7个差异显著的组合作为特征参数。
S-DCNN算法框架整合了SMOTE过采样和深度卷积神经网络的优势。SMOTE算法通过插值生成合成样本,有效扩大少数类样本的特征空间;DCNN则通过卷积层、池化层等结构实现深层特征提取。这种组合既符合结合残基样本的泛化特性,又避免了过拟合问题。
五折交叉验证显示,四种配体的预测性能均显著提升。当同时加入四类关联特征时,ATP配体的MCC值达到最高的0.5887,灵敏度、特异性和准确率分别达到58.83%、98.81%和97.33%。独立测试结果进一步验证了方法的稳健性,NAD配体的MCC值达到0.5341,ATP配体的准确率高达97.12%。
应用Boruta算法进行特征选择后,特征维度从231降至129,但预测性能保持稳定,证明关联特征间冗余度较低。ROC曲线分析显示,四种配体的AUC值均超过0.872,表明模型具有优异的分类能力。
在ATP-221、ADP-296等公开数据集上的测试表明,该方法在多数评估指标上优于已有预测工具,证明了算法的良好可扩展性。
该研究通过系统性的特征工程和算法创新,成功建立了小分子配体结合残基的高精度预测方法。四类关联特征的引入突破了传统特征参数的局限性,S-DCNN集成算法有效解决了样本不平衡带来的技术难题。研究不仅为ATP、ADP、GDP、NAD这四种重要辅因子的结合位点预测提供了可靠工具,其技术框架还可推广至蛋白质-蛋白质相互作用、离子配体结合位点分析等更广泛的生物信息学领域。这种基于序列信息的预测方法避免了实验测定成本高、周期长的缺点,为大规模蛋白质功能注释和药物靶点发现提供了新的技术路径。随着AlphaFold2等蛋白质结构预测技术的突破,结合序列特征与结构信息的融合预测方法将成为未来发展的重要方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号