编辑推荐:
为解决蛋白质同源寡聚体对称性预测难题,微软公司研究人员开展相关研究,开发出 Seq2Symm 模型,提升预测准确性与速度,助力蛋白质结构研究。
在生命的微观世界里,蛋白质是当之无愧的 “主角”,它们承担着各种各样的生物学功能。然而,大多数蛋白质可不是 “单打独斗”,而是会 “抱团” 形成更高阶的组装体来发挥作用。当多个相同的蛋白质亚基通过非共价相互作用结合在一起时,就形成了蛋白质同源寡聚体(homo-oligomer)。这种同源寡聚体的大小不一,小到由两个相同亚基组成的二聚体,大到拥有数百个亚基的大型寡聚复合物。而且,同源寡聚化对于蛋白质的稳定性、折叠以及功能至关重要,比如有些酶只有形成同源寡聚体才能识别底物。
蛋白质同源寡聚体中相同亚基的全局排列方式决定了其对称性,主要有点群对称(point group symmetry ,包括亚基沿一个或多个旋转轴的排列)和螺旋对称(helical symmetry ,涉及亚基沿旋转轴的旋转和平移)。常见的点群对称类型有循环对称(
symmetry ,复合物由 n 个亚基围绕中心轴旋转而成,如膜蛋白中的 β - 桶状成孔毒素)和二面体对称(
symmetry ,同源寡聚体包含旋转对称轴和垂直的二重对称轴,常见于细胞质酶中,有助于多种蛋白质 - 蛋白质相互作用界面的形成,实现变构调控 ),此外还有立方对称(如病毒衣壳中的二十面体对称)。
尽管蛋白质同源寡聚化如此重要,但仅依据单一蛋白质链预测其四级结构状态和对称群却困难重重。目前,蛋白质数据库(Protein Data Bank,PDB)中寡聚状态的注释主要基于 PISA 算法的预测,再加上提交结构的研究人员的标注。不过,PISA 算法依赖于实验测定的结构来提取组装信息,局限性明显。而那些无需实验数据的预测方法,有的依赖同源模板搜索(如 HHSearch),有的采用基于对接的单体对称变换来模拟复合物,还有像 GalaxyHomomer 这样结合模板和对接方法并进行环优化的。但这些方法都存在不足,例如 HHSearch 准确性有限,AlphaFold 和 RoseTTAFold 用于从头预测寡聚状态计算成本高昂,且通常局限于高质量多序列比对(MSA)的蛋白质;Uni - Fold Symmetry 需要预先指定对称群作为输入,MoLPC2 虽能算法确定对称群,但计算效率低;QUEEN 只能预测寡聚体的多重性,无法确定全局对称性。
为了攻克这些难题,微软公司(1AI for Good Research Lab, Microsoft Corporation)等机构的研究人员 Meghana Kshirsagar、Artur Meller、Ian R. Humphreys 等展开了深入研究。他们致力于微调蛋白质基础模型(protein foundation models,pFMs)来预测蛋白质同源寡聚体的对称性,最终开发出 Seq2Symm 模型。相关研究成果意义重大,有助于加速蛋白质同源寡聚体结构模型的构建以及在蛋白质组规模上进行对称群注释,为蛋白质结构研究提供了有力工具。该研究成果发表于Nature Communications 杂志。
研究人员在此次研究中运用了多种关键技术方法。首先,从 PDB 数据库获取并整理了包含 129,013 个结构的数据集,根据序列相似性进行训练集、验证集和测试集的划分。同时,还使用了 UniFold 测试集、PDB 2024 测试集以及从头设计的蛋白质测试集进行评估。其次,将预训练模型 ESM - MSA、ESM2 和 RoseTTAFold2 作为特征编码器,获取蛋白质的嵌入表示。在此基础上,对这些模型进行微调,尝试不同的监督神经网络架构和损失函数,如多层感知器、RobertaLMHead、Multitask RobertaLMHead、二元交叉熵对数损失函数(BCEWithLogits)和边缘损失函数(Margin loss function )等。此外,还实现了基于模板匹配的 HHSearch 方法作为对比。最后,采用蒸馏(Distillation )技术来扩展训练数据集,提升模型性能。
研究结果
ESM2 微调模型表现卓越 :研究人员对 ESM - MSA、ESM2 和 RoseTTAFold2 的预训练和微调模型,以及基于模板的 HHSearch 方法进行评估,使用了适用于类别不平衡数据集和多标签分类的指标,如精确率 - 召回率曲线下面积(Area Under Precision - Recall Curve,AUC - PR)、混淆矩阵、F1 分数和精确率 - 召回率曲线等。结果发现,使用 RoBERTa 中语言建模头的修改版本并结合边缘损失训练的 ESM2 微调模型 Seq2Symm 在所有数据集上表现最佳。与其他方法相比,Seq2Symm 在预测大多数循环对称(除 外)、 对称(如 、 、 )、螺旋对称和二十面体对称方面表现出色,且较少过度预测多数类 和 ,更能准确预测二面体、高阶循环、螺旋和二十面体对称群,仅在 “ ”(八面体)和 “ ”(四面体)对称上表现稍差。
基于序列建模的优势与局限 :基于 ESM2 的模型优于基于 RoseTTAFold2 和 ESM - MSA 的模型。进一步分析发现,基于序列的模型在除 “ ” 和 “ ”(二十面体)外的所有寡聚体对称上表现更优。但在无同源性的训练数据(“no - homology” split)上,虽然基于 ESM2 的模型仍略胜一筹,但各方法之间的差异和整体性能显著下降,这表明蛋白质语言模型(pLM)在处理与训练数据集无同源性的蛋白质时存在困难。同时,研究发现同一 Pfam 家族的蛋白质可能具有不同的同源寡聚体对称性,相似蛋白质在不同生物体中也可能采用不同的寡聚体对称性,这给基于 MSA 的方法带来干扰。
微调对少数类别的提升作用 :微调模型在高阶寡聚体对称(也是数据集中较罕见的类别)上的性能提升明显,而对于数据集中最常见的对称,如 、 、 、 ,预训练模型和微调模型表现相当,说明微调对少数数据类别的影响最为显著。与之前的方法 QUEEN 相比,Seq2Symm 在除 24 外的所有四级结构状态预测上表现更优,表明针对特定任务微调蛋白质语言模型比仅使用其嵌入作为可训练分类器的输入更能提升性能。
蛋白质组范围的快速预测 :由于 Seq2Symm 推理速度快,研究人员将其应用于五个蛋白质组和大约 350 万个未标记的蛋白质序列。结果显示,不同生物体中同源寡聚体对称性的分布存在差异,如在激烈热球菌(Pyrococcus furiosus )和大肠杆菌(Escherichia coli )中 复合物的比例较高,而在人类(Homo sapiens )和海葵(Exaiptasia pallida )中八面体对称的复合物比例较高。同时,还发现简单生物体和复杂生物体中高阶对称的普遍程度存在差异,且病毒蛋白在二十面体对称的同源寡聚体中占比过高。此外,利用 Seq2Symm 的预测作为 AlphaFold2 Multimer 或 ColabFold 的输入来生成结构,相比传统的穷举搜索方法,计算效率更高,生成的结构质量也更好。
研究结论与讨论
Seq2Symm 是一种快速的深度学习方法,能够准确预测蛋白质同源寡聚体的对称性,计算效率高,且不依赖同源结构上的对称注释。该模型在高阶寡聚体对称预测上比之前的方法平均高出约 19% ,在罕见类别如
、
和
上表现出色,这表明它可能学习到了这些更复杂寡聚对称蛋白质的特征。不过,该模型也存在一定的局限性,如在每个类别的混淆区域(预测概率为 0.5 - 0.7 的区域)错误率较高。未来可以通过调整损失函数、结合单链结构信息或直接预测粗粒度对称等方式来改进模型。尽管如此,Seq2Symm 在当前形式下,已经能够加速蛋白质同源寡聚体结构模型的构建和蛋白质组规模的对称群注释,通过与蛋白质结构预测算法结合,可生成复杂同源寡聚体的真实 3D 结构模型,其快速的运行时间也有助于比较不同物种和界之间的对称群分布,有望成为蛋白质组规模蛋白质结构预测和比较分析的重要工具。
鎵撹祻
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�