重磅突破!AlphaFold-Metainference 方法实现无序蛋白结构集合预测的前沿进展

【字体: 时间:2025年02月15日 来源:Nature Communications

编辑推荐:

  为解决能否用深度学习预测无序蛋白构象特性的问题,剑桥大学等机构的研究人员开展 AlphaFold-Metainference 方法研究。结果显示该方法可构建无序蛋白结构集合,这扩展了蛋白结构预测范围,强烈推荐科研读者阅读。

  

无序蛋白结构集合的 AlphaFold 预测


摘要:深度学习方法在预测蛋白质结构方面已达到与高分辨率实验方法相当的精度,能够生成数亿种蛋白质天然状态的精确模型。然而,一个悬而未决的问题是,这些进展能否应用于无序蛋白。由于其异质性和动态性,无序蛋白应以结构集合的形式表示。为解决这一问题,剑桥大学错折叠疾病研究中心(Centre for Misfolding Diseases)等机构的研究人员引入了 AlphaFold-Metainference 方法。该方法将 AlphaFold 预测的距离作为分子动力学模拟中的结构约束,以构建有序和无序蛋白的结构集合。使用 AlphaFold-Metainference 方法获得的结果表明,利用在大量折叠蛋白结构数据库上训练的深度学习方法来预测无序蛋白的构象特性是可行的。

深度学习方法应用于蛋白质折叠问题,极大地改变了研究人员从氨基酸序列知识生成蛋白质天然状态精确模型的能力。最初对蛋白质天然结构的预测最近也扩展到了蛋白质复合物。这些进展引发了一个问题,即是否可以使用这类方法预测折叠蛋白天然状态的构象波动,更广泛地说,是否可以用于表征无序蛋白天然状态的结构特性。有研究观察到,AlphaFold 在预测蛋白质无序性方面的表现与当前最先进的预测器相当,这为上述想法提供了支持。也有报道称,AlphaFold 预测的比对误差(PAE)图与分子动力学模拟的距离变化矩阵相关,这表明 AlphaFold 除了提供蛋白质结构信息外,还能提供蛋白质动力学信息。

由于无序蛋白的天然状态可以用符合玻尔兹曼分布的统计权重的构象集合来表示,一个相关目标是扩展 AlphaFold 以预测结构集合。在这项工作中,研究人员提出了一种实现该任务的方法。该方法基于一个观察结果,即尽管 AlphaFold 是在折叠蛋白上训练的,但它仍能预测无序蛋白的残基间距离。

基于有序蛋白的可用信息对无序蛋白进行预测非常重要,因为这使得从折叠蛋白中获得的残基间距离信息能够转移到无序蛋白上。对于深度学习方法的训练,蛋白质数据库(PDB)中存在大量高分辨率的折叠蛋白结构。相比之下,已确定的无序蛋白结构集合数量少且准确性较低,这使得使用它们来训练深度学习方法具有挑战性。作为替代方案,有研究报道了使用分子模拟得到的模型结构集合进行训练。

在 AlphaFold 流程中,预测的残基间距离以距离图(或距离直方图)的形式提供,可据此构建蛋白质结构。然而,目前 AlphaFold 对无序蛋白的结构预测与小角 X 射线散射(SAXS)数据并不完全一致。这是因为对于无序蛋白,预测问题在于将预测的距离图转化为结构集合,而非单一结构。虽然有许多成熟的方法可从距离图重建结构集合,但研究人员发现,将预测的距离用作分子动力学模拟中的结构约束,能够使得到的结构集合与预测距离一致。由于研究人员的目标是生成包含无序区域的蛋白质结构集合,因此在元推断方法中根据最大熵原理实施了结构约束。研究人员通过一组深入研究的高度无序蛋白,以及包含有序和无序结构域的蛋白质,包括与肌萎缩侧索硬化症(ALS)相关的 TAR DNA 结合蛋白 43(TDP-43)、与马查多 - 约瑟夫病(也称为脊髓小脑共济失调 3 型)相关的 ataxin-3,以及导致克雅氏病和相关朊病毒病的人朊病毒蛋白,展示了由此产生的 AlphaFold-Metainference 方法。

结果


AlphaFold 准确预测残基间距离


研究人员在这项工作中报道的 AlphaFold-Metainference 方法基于这样一个观察结果:AlphaFold 可以预测无序蛋白残基间距离的平均值。这一特征可能至今尚未明显体现,因为目前从 AlphaFold 提供的距离图重建单个结构是为了预测结构化的天然状态。

获取无序蛋白残基间距离的实验信息具有挑战性,因此比较预测和测量的残基间距离需要一些考量。在利用标记的技术中,如荧光共振能量转移(FRET)和核磁共振(NMR)光谱中的顺磁弛豫增强(PRE),标记的存在可能会影响构象集合的性质。在此,研究人员使用了小角 X 射线散射(SAXS)数据和 NMR 扩散测量,它们可提供关于蛋白质无序状态下残基间距离分布的无标记信息。研究结果显示,对于一组同时具备 SAXS 测量和 NMR 扩散测量数据的 11 种蛋白质,AlphaFold 对距离分布的预测与 SAXS 推导的结果吻合良好。研究人员添加了一种折叠蛋白(泛素,PDB:1UBQ )作为对照。由于 AlphaFold 预测的距离上限约为 22 ?,其预测的距离分布并未覆盖 SAXS 推导的全部分布。为从 SAXS 图谱获得 SAXS 推导的距离分布,研究人员使用了先前描述的方法。AlphaFold 推导的距离分布(距离直方图)见补充图 3。研究人员发现,泛素的值(0.037)与 11 种高度无序蛋白的值(范围:0.008 - 0.096)相当,这进一步表明 AlphaFold 对有序和无序蛋白的残基间距离预测精度相近。

为进一步验证,研究人员分析了最近报道的使用全原子分子动力学(MD)模拟和使用 CALVADOS-2(C2)的粗粒化模拟得到的和 α - 突触核蛋白的结构集合,这些模拟结果与实验数据吻合良好。AlphaFold 预测的距离与从和 α - 突触核蛋白的 MD 集合以及 CALVADOS-2 集合反算得到的距离吻合良好。由于 AlphaFold 预测的距离上限约为 22 ?,这种相关性在该值附近停止。

高度无序结构集合的 SAXS 验证


如前所述,使用 SAXS 测量能够计算成对距离分布。研究人员将这些实验推导的距离分布与通过 AlphaFold-Metainference 模拟确定的结构集合得到的距离分布进行了比较,针对上述 11 种高度无序蛋白展开。研究人员选择这组蛋白质是因为其 SAXS 数据可用,且蛋白质长度(24 - 414 个残基)和标度指数 ν(0.49 - 0.62)范围合适。作为对比,研究人员还展示了使用 CALVADOS-2 得到的距离分布,以及直接从单个 AlphaFold 结构生成的 AlphaFold 推导距离分布。为进行定量比较,研究人员表明,与单个 AlphaFold 推导结构相比,AlphaFold-Metainference 和 CALVADOS-2 提供的结构集合与 SAXS 数据的一致性更好。结合 AlphaFold-Metainference 和 AlphaFold 的回转半径(Rg)值与实验 SAXS 值的比较,这些结果表明单个 AlphaFold 结构与实验 SAXS 数据的一致性不佳。

研究人员进一步使用 NMR 化学位移比较了结构集合,这些化学位移是在每个时间步使用 CamShift 反算得到的。虽然基于结构预测化学位移存在较大误差,但作为示例,研究人员发现来自 AlphaFold-Metainference 的 Sic1 的 HN 化学位移比来自 CALVADOS-2 的略准确,而在所有其他情况下,研究人员无法可靠地对两种方法的性能进行排名。

研究人员进一步展示了上述高度无序蛋白的标度指数 ν 值如何偏离无规线团的弗洛里值( )。对于这些高度无序蛋白,AlphaFold-Metainference 生成的结构集合与从 SAXS 实验推导的 Rg 值一致性更好。这些结果进一步说明,当通过 AlphaFold-Metainference 方法将 AlphaFold 预测的距离作为分子模拟中的结构约束时,能够生成准确的距离分布。

研究人员还展示了在引入特定过滤标准后,用于 AlphaFold-Metainference 结构约束的 AlphaFold 预测距离的序列间隔。对于这些蛋白质,与 CALVADOS-2 相比,AlphaFold-Metainference 倾向于通过 Kullback-Leibler 距离衡量,更好地改善与实验 SAXS 数据的一致性。这一发现可归因于引入了短程距离约束。

部分无序结构集合的 SAXS 验证


为说明 AlphaFold-Metainference 在部分无序蛋白中的应用,研究人员考虑了一组 6 种同时包含有序和无序结构域的蛋白质,这些蛋白质序列长度范围各异,且有 SAXS 数据可用于验证。

研究人员首先展示了 TDP-43 的结果。TDP-43 是一种多功能 RNA 结合蛋白,具有模块化结构,使其能够参与多种细胞过程,包括转录、前体 mRNA 剪接和 mRNA 稳定性调控。TDP-43 也与 ALS 和其他神经退行性疾病相关。TDP-43 的序列包含 414 个氨基酸,形成不同的结构域。这些结构域包括一个折叠的 N 端结构域(残基 1 - 76)、一个无序区域(残基 77 - 105)、一个折叠的 RNA 识别基序(残基 106 - 176)、第二个无序区域(残基 177 - 190)、另一个折叠的 RNA 识别基序(残基 191 - 259),以及一个长的无序 C 端结构域(残基 274 - 414),该结构域包含一个富含甘氨酸的区域,参与蛋白质 - 蛋白质相互作用,并且携带了大多数与 ALS 相关的突变。由于存在三个无序区域,直接使用 AlphaFold 蛋白质结构数据库中的 AlphaFold 预测得到的结构,在 N 端结构域和 RNA 识别基序处具有高预测局部距离差异测试(pLDDT)置信分数( )的高精度区域,而在无序区域的 pLDDT 置信分数较低( ) ,导致与 SAXS 数据的整体一致性较差,值较高(0.582)。然而,当研究人员应用过滤标准选择 AlphaFold 预测的距离,然后使用这些距离约束进行 AlphaFold-Metainference 模拟时,得到了一个结构集合,其与 SAXS 数据的一致性更好,值为 0.018。

为进一步探索使用 AlphaFold-Metainference 预测部分无序蛋白结构集合的可能性,研究人员分析了 ataxin-3。这种蛋白质的结构由一个 N 端的 Josephin 结构域(残基 1 - 182)和一个长的、无序的 C 端结构域组成,该 C 端结构域包含多聚 Q 序列。同样,由于存在长的无序区域,使用 AlphaFold 蛋白质结构数据库中的 AlphaFold 预测得到的结构与 SAXS 数据不一致,值为 0.653。然而,当研究人员应用过滤标准选择用于 AlphaFold-Metainference 模拟的 AlphaFold 预测距离时,得到了一个与 SAXS 数据一致性更好的结构集合,值为 0.020。

接下来,研究人员报告了使用 AlphaFold-Metainference 对人朊病毒蛋白的研究结果。人朊病毒蛋白因其在克雅氏病和相关朊病毒病中的作用而受到广泛研究。这种蛋白质包含一个高度无序的 N 端区域,该区域包含一系列参与结合金属离子的八肽重复序列,以及一个折叠的 C 端区域,由三个 α - 螺旋和两个短的 β - 链组成。长的无序 N 端区域使得直接使用 AlphaFold 蛋白质结构数据库中的 AlphaFold 进行预测具有挑战性。以这种方式预测的结构与 SAXS 数据不一致,值为 0.1。然而,当研究人员应用过滤标准时,得到了一个与 SAXS 数据一致性更好的结构集合,值为 0.053。

研究人员研究的其他 3 种蛋白质(CbpD、H16 和 PC)的结果如图 6A - C 所示。总体而言,这些结果表明,在所有情况下,实验和反算得到的残基间距离分布之间的一致性非常好,与 AlphaFold 蛋白质结构数据库中的单个 AlphaFold 结构相比有显著改善。

为比较使用 AlphaFold 预测距离作为 AlphaFold-Metainference 方法中的结构约束生成的结构集合,以及使用 CALVADOS-2 仅对折叠结构域进行约束(RMSD-C2)生成的结构集合,研究人员计算了各自的值。研究人员发现,在分析的 6 种蛋白质中,有 4 种(ataxin-3、CbpD、H16 和 PC)情况下,AlphaFold-Metainference 的表现优于 RMSD-C2,而对于其余 2 种(TDP-43 和人朊病毒蛋白),两种方法产生的结构集合相当。这一结果可归因于 AlphaFold 预测的长程约束数量相对较少。

讨论


研究人员描述了 AlphaFold-Metainference 方法,该方法用于生成代表无序蛋白以及包含无序区域蛋白天然状态的结构集合。该方法基于一个发现,即 AlphaFold 预测的残基间距离即使对于无序蛋白也相对准确,因此这些距离可在元推断框架内的分子动力学模拟中用作结构约束。

尽管 AlphaFold 的训练数据集中没有无序蛋白,但它仍能预测无序蛋白的残基间接触,这一发现可能令人惊讶。由于深度学习方法通常难以推广到训练过程中未遇到的情况,这一结果可能表明,稳定无序蛋白天然状态的残基间相互作用类型与稳定折叠蛋白天然状态的相互作用类型在本质上并无不同,只是它们总体上可能不太稳定。这一可能性也与先前的研究一致,这些研究报道称未折叠状态的蛋白质优先采样其天然状态中也存在的分子间接触。

为生成结构集合,AlphaFold-Metainference 在分子动力学模拟中使用预测的距离作为结构约束,将 AlphaFold 距离图转化为结构集合。研究人员之前还表明,预测的距离图可用于重加权方法,在该方法中,可将分子动力学模拟得到的结构集合作为起点。

总体而言,研究人员展示的结果说明了最初为预测折叠蛋白天然状态而开发的深度学习方法,可用于生成代表无序蛋白天然状态的结构集合,从而大幅扩展了基于深度学习的蛋白质结构预测的范围。研究人员指出,使用全原子力场可能会提高所得结构集合的准确性,尽管这会增加模拟时间。并且,利用元推断框架,将 AlphaFold 预测的距离与包括 NMR 光谱、SAXS 和冷冻电子显微镜(cryo-EM)在内的实验数据相结合也是可行的。

方法


AlphaFold 预测的距离


残基间平均距离通过 AlphaFold 的距离图模块预测。除甘氨酸外,这些距离定义为所有氨基酸类型的 β 碳原子位置之间的距离,甘氨酸则使用 α 碳原子位置。多序列比对(MSA)由 MMseqs2 在 BFD/MGnify 和 Uniclust30 数据库上进行。使用 AlphaFold 的 1.1.1 模型进行预测,不使用结构模板。AlphaFold 将残基间距离分布划分为 64 个等宽的区间,覆盖范围从 2.15625 到 21.84375,最后一个区间还包括大于 21.84375 的距离。对于每对残基,AlphaFold 预测它们的距离在区间内的概率。预测距离和预测距离分布的标准差通过以下公式计算:


其中代表区间的中心值。

元推断


元推断是一种贝叶斯推断方法,能够根据最大熵原理结合先验信息和实验数据来确定结构集合。在这项工作中,研究人员将 AlphaFold 预测的距离图作为伪实验数据来实施该方法。元推断可以区分结构异质性与系统误差,如力场或正向模型的不准确、数据中的随机误差,以及由于集合样本量有限导致的误差。分子模拟根据元推断能量函数进行,其中是玻尔兹曼常数,是温度,是元推断的、符合最大熵的后验概率:

在这个公式中,表示包含结构集合原子坐标的向量,由单个副本组成,是与集合中有限数量副本相关的误差,是先验分子动力学力场、正向模型和数据中的随机和系统误差,是 AlphaFold 距离图。需要注意的是,是针对每个数据点计算的,而是针对每个数据点和副本计算的。似然函数的函数形式是一个高斯函数:
[p\left (d^{AF} | X, \sigma_{i}^{SEM}, \sigma_{r, i}^{B}\right)=\frac {1}{\sqrt {2 \pi} \sqrt {\

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号