蛋白质溶解度预测的牛顿-拉夫森优化与自适应梯度扰动混合特征选择方法研究
《Expert Systems with Applications》:NRBO-AGP: A Novel Feature Selection Approach for Accurate Protein Solubility Prediction
【字体:
大
中
小
】
时间:2025年07月30日
来源:Expert Systems with Applications 7.5
编辑推荐:
本文推荐一种结合牛顿-拉夫森优化器(NRBO)与自适应梯度扰动(AGP)的混合特征选择方法,用于解决高维蛋白质组学数据中特征选择效率低下的问题。研究人员通过整合多种元启发式算法(WOA、GWO、ALO、MFO、DA、GOA、MVO、SSA)进行对比验证,结果表明NRBO-AGP方法在CatBoost回归模型上实现了最优性能(R2>0.99),显著提升了蛋白质溶解度预测的准确性和鲁棒性,为生物制药领域的蛋白质工程优化提供了新工具。
蛋白质是生命活动的执行者,其溶解度的准确预测对于生物制药、酶工程和疾病研究具有重要意义。然而,蛋白质溶解度受到多种复杂因素的影响,包括氨基酸序列特征、理化性质、结构特征等,传统实验方法耗时耗力,计算预测方法又面临高维特征选择和模型泛化能力不足的挑战。现有机器学习方法在特征选择过程中容易陷入局部最优,且对非线性关系的捕捉能力有限,导致预测精度难以满足实际应用需求。
为了突破这些瓶颈,研究人员在《Expert Systems with Applications》上发表了题为"Hybrid Newton-Raphson Based Optimizer and Adaptive Gradient Perturbation with Feature Selection to Predict Protein Solubility"的研究论文。该研究创新性地将牛顿-拉夫森方法的高效收敛特性与自适应梯度扰动的全局搜索能力相结合,提出了一种新型混合优化算法(NRBO-AGP),用于蛋白质溶解度预测中的特征选择问题。
本研究采用的技术方法主要包括:1)从公共数据库收集蛋白质序列和溶解度数据,构建包含多种氨基酸描述符的特征集;2)开发NRBO-AGP混合优化算法,其中NRBO负责快速局部收敛,AGP通过添加随机扰动避免陷入局部最优;3)采用多种机器学习模型(MLP、AdaBoost、GradientBoosting、RandomForest、SVR、ElasticNet)进行性能比较;4)使用5折交叉验证评估模型性能,以R2、RMSE和MAE作为评价指标。
研究团队首先构建了包含丰富氨基酸特征描述符的数据集,包括疏水性指数、等电点、净电荷等理化参数。NRBO-AGP算法的核心在于将连续的牛顿-拉夫森迭代与自适应的梯度扰动相结合,通过动态调整搜索步长和方向,在保证收敛速度的同时增强全局探索能力。算法采用种群优化策略,每个个体代表一个特征子集,通过目标函数评估其质量。
通过NRBO-AGP算法筛选出的关键特征主要集中于第44-47位氨基酸区域,这些位置被证明是影响蛋白质溶解度的"热点区域"。特征分析显示,疏水-亲水平衡、电荷分布和结构稳定性参数是决定溶解度的关键因素。与传统的WOA、GWO、ALO等元启发式算法相比,NRBO-AGP在特征选择效果上表现出明显优势。
在六种机器学习模型上的测试结果表明,集成学习方法(GradientBoosting和RandomForest)配合NRBO-AGP特征选择达到了最优性能,测试集R2分别达到0.999和0.998。深度学习方法MLP也表现出色(R2=0.996),而传统回归方法SVR和ElasticNet性能相对较低。残差分析和Q-Q图显示,NRBO-AGP优化后的模型误差分布更加集中,预测稳定性显著提升。
NRBO-AGP算法在训练过程中表现出良好的收敛特性,训练损失和验证损失在50次迭代后基本稳定,且两者差距较小,表明算法具有较好的泛化能力。自适应梯度扰动机制有效防止了过拟合,使模型在测试集上保持稳定的高性能。
该研究通过系统的实验证明,NRBO-AGP混合优化算法能够有效解决高维特征选择中的局部最优和过早收敛问题。筛选出的特征子集不仅具有明确的生物物理意义,而且显著提升了蛋白质溶解度预测的准确性。这项研究为蛋白质工程和药物设计提供了可靠的计算工具,同时为其他生物信息学问题的特征选择提供了新的方法学借鉴。未来工作可进一步探索该算法在其他生物分子性质预测中的应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号