编辑推荐:
研究人员为解决分子对接评分函数缺陷问题,开展 FeatureDock 研究,其在区分强弱抑制剂等方面表现优异,助力药物研发。
在药物研发的漫长征程中,每一款新药的诞生都宛如一场艰难的冒险。药物研发过程复杂、成本高昂且耗时极长,药企往往要花费十几年时间和数十亿美元,才能将一款新药推向市场。在这个过程里,虚拟筛选作为关键环节,能够从海量化合物中挑选出潜在的药物分子,大大提高研发效率。而分子对接技术,作为虚拟筛选的核心手段,负责预测蛋白质与小分子配体之间的结合结构,在基于结构的药物发现中占据着举足轻重的地位。
近年来,深度学习的浪潮席卷了分子对接领域,众多基于深度学习的方法如雨后春笋般涌现。像 DiffDock 这类先进方法,运用扩散生成模型来解决对接问题,在预测结合构象方面展现出超越传统对接算法的卓越性能。然而,这些深度学习对接方法并非十全十美,它们在评分函数上存在明显缺陷,难以在虚拟筛选时有效区分强抑制剂和弱抑制剂,这无疑给药物研发带来了巨大挑战。
为了攻克这一难题,美国威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的 Mingyi Xue、Bojun Liu、Siqin Cao 和 Xuhui Huang 等研究人员开展了深入研究。他们提出了一种名为 FeatureDock 的基于 Transformer 的深度学习框架,相关研究成果发表在《npj Drug Discovery》上。
研究人员在开展此项研究时,运用了多个关键技术方法。首先,在数据集方面,他们从 PDBBind v2020 精炼集中精心筛选出 5316 个高质量蛋白质 - 配体复合物结构,构建训练数据集。其次,采用 3D 不变的 FEATURE 表示对蛋白质局部环境进行特征化处理,将配体结合口袋离散为网格点并嵌入特征。再者,利用 Transformer 编码器预测网格点的结合概率,形成概率密度包络。最后,设计了独特的评分函数,并结合 L-BFGS-B 优化算法对配体结合构象进行评分和优化。
模型训练与选择
研究人员对比了 Transformer 编码器、前馈神经网络(FNN)和残差网络(ResNet)等不同神经网络架构。通过全面的超参数调整分析,发现 Transformer 编码器在所有测试模型中表现最佳。在不同模型容量测试中,Transformer 编码器始终能实现最低损失,验证了其在 FeatureDock 框架中的稳健性。此外,研究还表明,FeatureDock 在不同化学空间和蛋白质家族中具有广泛适用性,无需对特定蛋白质家族进行微调。
配体结合概率密度包络的预测
以细胞周期蛋白依赖性激酶 2(CDK2)为研究对象,FeatureDock 在排除 CDK2 及其 90% 同源结构的情况下进行训练,能够生成可靠的概率密度包络。分析发现,高预测结合概率(>0.8)的网格点与配体原子的实际位置平均距离仅为 0.62?,表明模型预测的高结合概率区域与配体重原子的实际位置高度吻合,在预测配体构象方面极具潜力。研究人员还将 FeatureDock 应用于预测同一蛋白质不同构象状态的结合概率密度包络,发现非活性和活性 CDK2 的概率密度包络在 Tyr15 附近区域存在显著差异,这一预测与已报道的别构配体结合位点相契合。在与 Vina、AutoDock4 和 DiffDock 的对比中,FeatureDock 在预测结合概率密度包络时,展现出较低的交叉熵损失和良好的 F1 评分,进一步证明了其在构象预测方面的稳健性。
确定对配体结合贡献最大的化学特征
FeatureDock 利用 Transformer 架构的注意力权重,为每个输入化学特征生成注意力图。通过分析 CDK2 非活性形式结构的注意力图,发现疏水残基 Phe82 和 Phe80,以及极性氨基酸 Gln85 和 Gln131-Asn132 对配体结合贡献较大。这一结果与之前的药效团模型和分子动力学(MD)模拟研究结果相符,同时也为设计与这些残基相互作用的配体以提高 CDK2 配体选择性提供了理论依据。
FeatureDock 在区分强弱抑制剂方面优于其他方法
在对非活性形式的 CDK2 和血管紧张素转化酶(ACE)受体的研究中,FeatureDock 在区分强弱抑制剂方面表现出色。在 CDK2 实验中,FeatureDock 的 KL 散度达到 0.67,远高于 DiffDock(0.39)、Smina(0.04)和 Vina(0.04),AUC 值为 0.74,与 DiffDock(0.76)相近,而 Smina 和 Vina 的 AUC 值仅为 0.43。通过对具体化合物的分析发现,FeatureDock 不仅能提供准确的评分,还能给出有意义的最佳配体构象。在 ACE 实验中,FeatureDock 同样取得了最高的 KL 散度(0.30)和 AUC(0.69),优于其他对比方法。
研究表明,FeatureDock 是一种基于结构的分子对接方法,它既能预测蛋白质 - 配体的结合构象,又能评估化合物的结合能力。尽管在与专门训练预测结合亲和力的 RF-score 对比中,FeatureDock 的预测能力稍显逊色,但 RF-score 在应用于训练数据集之外的化合物时,性能可能会受到限制。此外,FeatureDock 在优化过程中可能会陷入局部能量极小值,未来可通过引入 E3 等变扩散模型加以改进。在虚拟筛选时,选择合适的概率截断值至关重要,研究人员建议根据生物测定数据或口袋特性进行选择。
总的来说,FeatureDock 在预测和评分蛋白质 - 配体结合构象方面展现出显著优势,为虚拟筛选和药物设计提供了强大的工具。它能够有效区分强抑制剂和弱抑制剂,准确预测结合构象,有望在药物研发领域得到广泛应用,推动新药的发现和开发进程。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》