不确定性量化赋能深度学习:蛋白质-配体结合亲和力预测的可靠性突破
《Scientific Reports》:Uncertainty quantification enables reliable deep learning for protein–ligand binding affinity prediction
【字体:
大
中
小
】
时间:2025年12月05日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对深度学习模型在蛋白质-配体结合亲和力预测中泛化能力不足且缺乏可靠置信度估计的问题,系统比较了五种不确定性量化方法。研究人员发现Bayes by Backprop方法在FFNN-ECIF模型上实现了最优的预测性能和校准效果,为药物发现提供了更可靠的不确定性量化工具。
在计算机辅助药物发现领域,准确预测蛋白质与配体之间的结合亲和力是至关重要的环节。近年来,深度学习算法在这一任务中展现出巨大潜力,但模型在实际应用中仍面临两大挑战:一是对未知数据的泛化能力不足,二是预测结果缺乏可靠的不确定性估计。这导致研究人员难以判断预测结果的可信度,从而限制了这些模型在药物研发中的实际应用价值。
传统评估方法中存在的"软重叠"问题更使得模型性能评估产生偏差。当训练集和测试集中存在相似特征或模式的实例时,模型的性能评估往往会过于乐观,无法真实反映其在实际应用中的表现。此外,即使使用无偏差的数据集,每个模型也都有其固有的应用域限制,超出这一范围预测可靠性就会显著下降。
为了应对这些挑战,Milad Rayka和S.Shahab Naghavi开展了一项系统研究,比较了五种不确定性量化方法在蛋白质-配体结合亲和力预测中的表现。这项发表在《Scientific Reports》上的研究不仅为领域提供了重要的方法学比较,更为可靠药物设计工具的开发指明了方向。
关键技术方法方面,研究人员采用了Leak-Proof PDBBind数据集确保无偏训练和验证,构建了四种深度学习模型(FFNN-ECIF、CNN-MS-OIC、DeepDTA和IGN),系统评估了五种不确定性量化方法(Deep Ensemble、MC-Dropout、Laplace approximation、Bayes by Backprop和ENN),并使用了包括排序基、校准基和适当评分规则在内的多维度评估指标。
研究人员首先比较了四种深度学习模型的预测性能。通过Wilcoxon符号秩检验发现,基于扩展连通性相互作用特征(ECIF)的前馈神经网络(FFNN)在验证集上表现最优,其皮尔逊相关系数(Rp)达到0.556,均方根误差(RMSE)为1.545。然而,当模型应用于外部测试集时,性能出现明显波动,特别是在结合亲和力分布与训练集存在较大差异的数据集上。这一发现凸显了不确定性量化在识别模型应用域方面的重要性。
在选择FFNN-ECIF作为基础预测模型后,研究人员系统评估了五种不确定性量化方法。通过45项指标的综合分析发现,不同方法在各维度上表现出互补优势。Bayes by Backprop在校准基指标上表现最为稳定,而Laplace近似在负对数似然(NLL)和排序指标上表现优异。深度集成方法产生的预测区间最为尖锐,但存在过度自信的问题。
校准曲线可视化分析揭示了不同不确定性量化方法的置信度特性。研究发现约60%的方法表现出过度自信行为,其中MC-Dropout和深度集成方法明显低估不确定性,而Laplace近似则独特地表现出低估置信度的特点。Bayes by Backprop在不同数据集上展现出适应性校准能力,其在校准曲线中与理想线最为接近。
通过预测区间与真实值的对比分析,研究人员进一步验证了各方法的校准质量。Bayes by Backprop产生的预测区间能够较好地包含真实值,表明其不确定性估计较为准确。而其他方法或在某些数据集上表现出区间过窄(低估不确定性),或区间过宽(高估不确定性)的问题。
综合分析表明,Bayes by Backprop在多项关键指标上表现最为均衡,特别是在校准质量方面表现突出,且无需额外的重新校准步骤。该方法在分布外预测场景中展现出较强鲁棒性,对于识别模型遇到的陌生数据模式具有重要价值。
研究结论表明,Bayes by Backprop作为首次应用于蛋白质-配体结合亲和力预测的不确定性量化方法,展现出了卓越的性能。该方法在排序基指标、适当评分规则和锐度指标上均取得优异结果,特别是在无需重新校准的情况下仍能保持良好的校准特性,这使其在分布外预测中具有特殊价值。
该研究的重要意义在于为深度学习在药物发现中的应用提供了可靠性保障。通过可靠的不确定性量化,研究人员能够更加自信地使用模型预测结果进行决策,特别是在主动学习框架中,模型可以主动选择不确定性最高的样本进行标注,从而加速药物发现流程。未来,这一研究成果可进一步应用于活性学习算法,推动蛋白质-配体结合亲和力预测向更可靠、高效的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号