
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类参考蛋白质组结构模型评估:AlphaFold2与ESMFold的比较研究及其在无实验结构蛋白质中的应用价值
【字体: 大 中 小 】 时间:2025年05月23日 来源:Current Research in Structural Biology 2.7
编辑推荐:
为解决人工智能预测蛋白质结构模型的质量评估问题,研究人员开展AlphaFold2与ESMFold模型系统性比较研究。通过三种质量评估(QA)方法分析42,942对人类蛋白质模型,发现当模型相似时AlphaFold2更优,而在49%的差异模型中ESMFold表现更佳。该研究为选择最优预测模型提供重要依据,对结构生物学研究具有指导意义。
蛋白质结构预测领域近年来因人工智能技术的突破而取得重大进展,AlphaFold2在CASP14竞赛中的惊艳表现开启了结构预测的新纪元。然而,随着ESMFold等基于蛋白质语言模型(pLMs)的新方法出现,科研人员面临新的选择困境:当不同预测方法产生分歧时,究竟该信任哪个模型?特别是在缺乏实验结构的情况下,这个问题显得尤为突出。这种不确定性严重制约了预测模型在药物设计、功能注释等下游应用中的可靠性。
针对这一关键问题,来自意大利的研究团队在《Current Research in Structural Biology》发表了重要研究成果。他们建立了包含42,942对人类蛋白质的AlphaFold2和ESMFold预测模型的Alpha&ESMhFolds数据库,并采用三种先进的质量评估(QA)方法进行系统比较。这项研究不仅为科研人员提供了直观比较两种预测模型的平台,更重要的是建立了在无实验结构情况下评估模型可靠性的方法论框架。
研究采用了三种单模型质量评估方法:基于卷积神经网络的DeepAccNet、结合距离约束评分的QMEANDisCo以及基于图卷积和注意力机制的QATEN。这些方法均能快速处理大规模数据集,在85,884个模型上预测平均预测局部距离差异测试(pLDDT)分数。此外,研究还利用DSSP程序分析残基溶剂可及性(RSA)和二级结构特征,样本来源于UniProt数据库中的人类参考蛋白质组(UP000005640)。
在"验证QA方法对PDB结构的适用性"部分,研究证实三种QA方法对实验结构的评分与预期一致,其中DeepAccNet表现最为稳定。对2,900个有PDB结构的蛋白质分析显示,当预测模型与实验结构的模板建模评分(TM-score)≥0.6时,AlphaFold2和ESMFold都能产生优质模型,但AlphaFold2略胜一筹。
"无PDB结构蛋白质模型的QA评估"揭示了关键发现:在模型相似的16,602个蛋白质中,AlphaFold2模型在96%情况下被DeepAccNet和QMEANDisCo评为更优;而在模型差异明显的23,440个蛋白质中,ESMFold模型在49%情况下被QA方法评为更可靠。特别值得注意的是,QMEANDisCo和QATEN更倾向于选择ESMFold模型,这可能与其更紧凑的结构特征有关。
通过"溶剂可及性和卷曲含量分析",研究发现AlphaFold2模型普遍具有更高的残基溶剂可及性和更长的无序区域。具体数据显示,AlphaFold2产生的超过300个残基的超长无序片段数量(1,400个)远超ESMFold(314个),这种结构松散性可能是某些QA方法降低其评分的原因。
这项研究得出几个重要结论:首先,当AlphaFold2和ESMFold预测相似时,前者通常是更可靠的选择,这与其能更好整合同源模板信息有关;其次,在预测结果差异较大时,近半数情况下ESMFold可能提供更优模型,特别是其更紧凑的结构特征在某些QA方法中更受青睐;最后,研究证实QA方法可以作为无实验结构时评估预测模型的有效工具。
该研究的创新价值体现在多个方面:建立的Alpha&ESMhFolds数据库为比较不同预测方法提供了宝贵资源;提出的多方法评估框架解决了实际科研中的模型选择难题;对预测模型结构特征的深入分析为改进下一代预测算法提供了方向。这些发现对结构生物学、计算生物学及相关领域的研究具有重要指导意义,特别是在药物靶点识别和蛋白质功能预测等依赖高质量结构模型的应用中。
生物通微信公众号
知名企业招聘