
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图变换器与成对相似性图的蛋白质复合体模型精度评估新方法GATE
【字体: 大 中 小 】 时间:2025年07月30日 来源:Bioinformatics Advances 2.4
编辑推荐:
本研究针对蛋白质复合体结构预测中的模型质量评估难题,开发了创新性方法GATE。研究人员通过整合单模型质量特征与多模型几何相似性信息,构建成对相似性图并应用图变换器技术,显著提升了蛋白质复合体结构精度的预测能力。在CASP15测试中,GATE的Pearson相关系数达0.748,排名损失仅0.1191;在CASP16盲测中综合表现位列前五,证实了该方法在复杂结构评估中的优越性和实用价值。
蛋白质结构预测领域近年来因AlphaFold系列算法的突破取得重大进展,但如何从海量预测模型中筛选高精度结构仍是未解的难题。传统质量评估方法存在"中心倾向"缺陷——当模型池中劣质模型占多数时,基于共识的方法会错误抬高常见低分模型的评分。这一瓶颈严重制约着蛋白质功能分析和药物设计等应用的可靠性。
为攻克这一难题,密苏里大学哥伦比亚分校电气工程与计算机科学系的研究团队开发了创新性评估系统GATE。该方法首次将图变换器应用于蛋白质模型的成对相似性图分析,通过融合单模型特征与多模型关系信息,在CASP15测试中创下Pearson相关系数0.748的新纪录,相关成果发表在《Bioinformatics Advances》期刊。
研究采用三大关键技术:(1)构建以TM-score>0.5为边的成对相似性图;(2)基于结构相似性的子图采样策略,平衡不同构象簇的代表性;(3)集成注意力机制的图变换器架构,同时处理节点(单模型特征)和边(模型间相似性)信息。实验数据来自CASP15的41个复合体靶标(平均每个靶标270个模型)及CASP16盲测数据集。
【成对相似性图构建】
通过TM-score等指标建立模型间拓扑关系,当全局结构相似度(TM-score)超过0.5时创建连接边,同时纳入QS-score等界面特异性指标作为边特征。这种表示方法首次将局部界面精度与全局结构相似性统一于图结构中。
【结构相似性子图采样】
创新性地采用动态聚类采样策略:当模型池平均相似度<0.8时,通过K-means聚类平衡不同构象簇的采样比例;相似度高时则随机采样。该方法有效防止了低质量模型簇主导评估结果,解决了传统共识方法的固有偏差。
【图变换器架构】
节点特征融合了归一化单模型评分(如EnQA、GCPNet-EMA)与多模型共识特征;边特征编码了TM-score和界面接触差异。通过多头注意力机制迭代更新节点和边表征,最终输出模型质量预测值。独特的成对损失函数确保模型正确排序能力。
【性能验证】
在CASP15测试中,GATE-Ensemble版本的Pearson相关系数(0.748)显著优于传统方法MULTICOM_qa(0.668)和单模型方法GCPNet-EMA(0.322)。特别在抗体-抗原复合体(H1167)等困难靶标上,其排名损失(0.032)远低于共识方法(0.310),证明其突破"中心倾向"瓶颈的能力。CASP16盲测进一步验证了方法的鲁棒性,在36个靶标上获得TM-score相关系数0.708(排名第一),综合z-score总分位列第五。
这项研究的重要意义在于:首次将图神经网络与共识评估思想有机结合,通过拓扑关系建模解决了蛋白质复合体质量评估的关键挑战。方法创新体现在三个方面:(1)子图采样策略有效平衡了模型池的结构多样性;(2)图变换器架构同时捕获了模型内在质量与相对关系;(3)集成单模型与多模型特征提升了预测稳健性。GATE已开源实现,为蛋白质结构预测领域提供了重要的评估工具,特别有助于解决抗体药物设计等应用中复杂结构的筛选难题。未来通过优化结构比对算法(如采用FoldSeek)和扩展局部界面评分功能,该方法有望进一步推动结构生物学研究的发展。
生物通微信公众号
知名企业招聘