编辑推荐:
本文介绍了 RibbonFold 这一 AI 驱动模型,它整合淀粉样特异性约束来预测淀粉样纤维结构(Amyloid fibril structures)。该模型在预测准确性上优于 AlphaFold2/3,能有效探索多态景观,为理解淀粉样聚集机制和寻找治疗靶点提供新途径。
### 研究背景
蛋白质折叠一直是生命科学领域的重要研究方向,众多蛋白质在进化作用下,其能量景观呈漏斗状,可折叠成有序结构发挥功能,但部分蛋白质会发生聚集现象。淀粉样蛋白(Amyloid)作为一种特殊的蛋白质聚集体,具有高度有序的纤维结构,它与多种疾病相关,如朊病毒病、阿尔茨海默病(Alzheimer’s)、帕金森病(Parkinson’s)和 II 型糖尿病等,同时在记忆形成等生理过程中也有一定作用。
尽管对蛋白质折叠的理解取得了进展,但淀粉样蛋白形成的分子机制仍不明确。其形成过程包含多个复杂步骤,如初级成核、单体添加导致的聚集体生长和次级成核等,且这些步骤涉及众多蛋白质单体,序列进化对其分子细节的选择作用似乎并不强,这使得淀粉样蛋白形成机制充满未知。例如,初级成核的初始种子可能是蛋白质的小肽片段,且淀粉样蛋白生长过程有时会出现 “回溯” 现象。
在淀粉样蛋白研究中,预测其结构面临诸多挑战。一方面,淀粉样纤维具有多态性,同一蛋白质序列可形成多种结构不同的纤维形式,这增加了预测难度,且其结构多样性受多种因素影响,如环境、序列变异和翻译后修饰等。另一方面,目前公开的淀粉样蛋白结构数量较少,远少于蛋白质数据库(PDB)中折叠蛋白的数量,基于经验结构数据的神经网络难以准确预测其结构。
RibbonFold 模型的构建
为应对这些挑战,研究人员开发了 RibbonFold 模型。该模型基于 AlphaFold2 进行改进,将淀粉样蛋白形成的物理知识融入其中,引入了平行排列(parallel-in-register)约束,使神经网络专注于研究堆叠的单体链,这些单体链形成类似带状的结构。同时,利用精心整理的淀粉样蛋白数据库对模型进行微调。
在构建过程中,研究人员对 AlphaFold2 的模板模块进行修改,编码平行排列约束。通过设计定制的模板特征,对链间距离和取向进行编码,将相邻链间距离近似设定为 4.85? ,间隔 k 条链的链对距离设为 4.85?×k ,并将距离值离散化为独热向量,还添加通用随机单位向量表示平行排列特征。
考虑到淀粉样蛋白序列对应多种多态结构,研究人员设计了多态损失函数(polymorph loss function)。在训练时,对每个输入序列进行 M 次前向传递得到 M 个预测结构,与 N 个已知多态目标结构对比,计算 FAPE 损失、距离图损失(distogram loss)和冲突损失(conflict loss)的组合作为损失值,选择每个目标的最小损失并平均,以更好地处理多态性问题。此外,为增加模型预测的多样性,采用随机 MSA 子聚类和 MSA 列随机失活(MSA column dropout)方法,让 MSA 在一定程度上充当随机噪声。
RibbonFold 模型的性能评估
研究人员对 RibbonFold 模型的性能进行了评估,与 AlphaFold3、AlphaFold2-Multimer 及添加平行排列约束的 AlphaFold2-Multimer 进行对比。使用两个测试集,每个测试集中的丝带(ribbon)用不同方法生成 10 个样本,计算预测样本与真实结构的 TM 分数(TM-Score),以 10 次预测中的最佳 TM 分数为主要评估指标。
结果显示,RibbonFold 在预测丝带结构上比其他方法更准确。在第一个测试集中,15 个丝带样本里有 9 个,RibbonFold 的 10 次运行最佳 TM 分数比 AlphaFold3-Server 至少高 0.1。在一些例子中,AlphaFold3-Server 未能生成类似丝带的结构,而 RibbonFold 能持续生成平行排列的丝带样结构。通过消融实验发现,模型中的丝带约束、多态损失函数、MSA 输入和初始结构等组件对其性能都有重要影响,去除丝带约束或使用标准损失函数都会导致最佳 TM 分数显著降低。
不同多肽的多态景观分析
利用 RibbonFold 模型对多种多肽的多态景观进行分析。以 Aβ1-42为例,对其 100 个预测结构进行聚类分析,基于相互 Q 相似性度量(mutual-Q similarity measure)识别出五个显著聚集的簇,这些簇代表不同的多态形式。通过与实验确定的 Aβ 纤维多态结构对比,发现约 10 种实验多态中有 7 种能在 RibbonFold 计算的多态中找到匹配,且匹配的 TM 分数高于 0.5。实验结构根据是否包含 41 和 42 位残基可分为两种主要的原纤维丝带折叠类型,即 “S” 形和 “U” 形。计算不同簇的 AWSEM 能量发现,“S” 形丝带的簇具有更有利的结合能,而 “U” 形簇则较差。
对 Aβ1-42和 Aβ1-40的随机序列进行分析,发现随机序列生成的结构在能量上比天然序列的结构更不稳定,这表明天然序列的淀粉样蛋白在聚集倾向性上可能存在基于溶解度的选择。同时,对一些著名突变体的预测显示,北极(E22G)和意大利(E22K)突变体比野生型更稳定,且实验报道其聚集速度更快,与预测结果相符。
在 Tau305-379序列的研究中,通过聚类分析得到五个显著聚集的簇,还观察到一些单例。与已知的淀粉样多态结构对比,约 8 种天然多态中有 6 种能在 RibbonFold 计算的多态中找到匹配,且 TM 分数高于 0.4。此外,模型还预测出一些新的多态形式,有待实验验证。
α-Synuclein1-99序列的多态景观分析中,同样识别出六个显著聚集的簇,覆盖 95% 的预测结果,也有单例出现。与实验观察到的多态结构对比,9 种天然多态中有 7 种能在计算多态中找到匹配,TM 分数高于 0.4,同时也存在新的多态形式。
讨论
RibbonFold 模型目前每个肽段大约能生成 5 - 10 种多态形式。淀粉样蛋白折叠景观与单体蛋白折叠景观不同,其聚集景观依赖浓度,相应的热力学势是自由能减去化学势与聚集体中单体单元数量的乘积。丝带约束下的热力学势景观不能完全反映多态之间的直接相互转化,但能体现溶解度,多态之间可能通过二次成核或动力学替代进行相互转化。
RibbonFold 算法表明,已知的淀粉样形成序列在 “溶解度” 景观上具有有限数量的合理多态形式。对 Tau 和 α-Synuclein 随机序列的研究发现,野生型序列仍能形成最稳定的丝带结构。在功能性朊病毒的朊病毒样结构域研究中,发现其多态景观中簇较小,丝带灵活性较高,这可能与功能选择过程有关。与球状蛋白的单漏斗景观不同,淀粉样蛋白具有多漏斗景观,存在多个动力学陷阱。
RibbonFold 为淀粉样多态景观的结构表征提供了有用框架。目前确定蛋白质纤维结构比确定球状蛋白结构困难得多,现有理论和机器学习工具在淀粉样蛋白领域多局限于识别驱动淀粉样形成的短肽。RibbonFold 将预测稳定淀粉样多态结构问题视为二维蛋白质丝带折叠问题,原则上可预测任何序列的最稳定淀粉样折叠。
然而,RibbonFold 模型也存在一些局限性。目前模型假设最稳定的淀粉样多态基于平行排列的 β - 片层,但已观察到短肽存在平行错列(parallel out-of-register )β - 链的晶体结构,且抗平行(antiparallel)的 Aβ 纤维结构最终会转变为平行结构。此外,模型未考虑辅因子和盐离子对纤维结构的关键调节作用,也无法处理由多个淀粉样原纤维组成的高阶淀粉样纤维。同时,模型目前最佳 TM 分数约为 0.5,有待进一步提高,未来可通过扩大数据库规模和改进算法等方式进行优化。