编辑推荐:
为探究机器学习(ML)和人工智能(AI)方法在药物发现中对化学数据使用方式的改变、与传统方法的差异及能否提升化学多样性等问题,研究人员开展 AI/ML 方法在药物研发应用的研究。结果显示其在多方面有应用潜力,但也存在局限。这为药物研发新方向提供参考。
在当今的药物研发领域,传统的研究方法正面临着诸多挑战。一方面,寻找新的化学实体(New Chemical Entities)难度越来越大,研发成本不断攀升;另一方面,现有的计算和实验方法在探索化学空间、提高研发效率上逐渐遭遇瓶颈。在此背景下,机器学习(Machine Learning,ML)和人工智能(Artificial Intelligence,AI)技术的兴起,为药物研发带来了新的希望。那么,这些新技术究竟能否成功设计出下一代新化学实体?它们在药物研发中会扮演怎样的角色?为了解开这些谜题,RJB Computational Modeling LLC 的 Rachelle J. Bienstock 开展了相关研究,研究成果发表在《Journal of Cheminformatics》上。
在这项研究中,作者主要运用了多种机器学习和人工智能算法,如用于分子性质预测的无监督、自监督学习及图基模型,进行虚拟筛选的汤普森采样(Thompson sampling),预测蛋白质结构的 AlphaFold3 等,同时结合传统的基于物理的方法进行对比分析。
研究结果表明:
- AI/ML 在药物研发中的应用成果:
- 分子性质预测:AI/ML 方法能借助亚结构向量嵌入等方式,自动预测分子性质,像通过向量表示分子亚结构来预测亲脂性(logD)12。
- 命中识别(Hit Identification):在小分子配体 / 化学物识别方面,神经网络、生成化学及 AI 驱动的虚拟高通量筛选(vHTS)发挥了作用。例如,Atomwise 利用 AtomNet 平台在无已知结合配体或 X 射线结构的情况下,为众多靶点识别出新型生物活性支架命中物37。
- 靶点识别与作用机制:OpenFold、AlphaFold23、Bolt-1 等技术在靶点 / 蛋白质建模和结构预测中得到应用。不过,AlphaFold3 预测的结构存在一些问题,如难以维持立体化学,蛋白质与配体原子间常有重叠冲突489。
- 对接(Docking):虽然 AlphaFold3 用于对接存在不足,但在某些特定情况下,如针对 trace amine–associated receptor 1 (TAAR1) 的研究中,AlphaFold 模型的对接筛选命中率比同源模型更高511。
- 药物设计与优化:Insilico Medicine 利用其生成式 AI 平台 Chemistry 42 设计出多种疾病的候选药物;AI 深度学习方法还用于设计大分子药物,如基于深度学习的 RFdiffusion 方法被用于设计抗蛇毒血清61013。
- 与传统方法的对比:在一些研究中,传统基于物理的对接方法,如 AutoDock Vina 和 CCDC Gold 等,在限制配体运动自由度和处理蛋白质与配体冲突方面表现更优,分子力学力场包含深度学习方法所缺失的对接相关物理特性12。
研究结论与讨论部分指出,化学信息学和化学数据在未来药物发现中的使用方式将有所不同,ML 方法与实验数据及基于物理的方法结合,采用循环再训练工作流程,能发挥更大效用。随着实验代表性蛋白质数据集的增加,ML 在蛋白质结构预测方面将不断改进。同时,更多类似 MaSIF(用于分子表面相互作用指纹识别的几何深度学习方法)的 ML 方法将被开发并应用于新的研究领域,如蛋白质 - 蛋白质相互作用(Protein - Protein Interactions,PPIs)、PROTACS(Proteolysis Targeting Chimera,蛋白水解靶向嵌合体)、分子胶和抗体药物偶联物(Antibody Drug Conjugates,ADCs)等。随着超大筛选数据库规模的持续扩大,ML 方法和组合数学将得到更广泛的应用。这项研究为药物研发领域在新技术应用方面提供了重要参考,指明了未来的研究方向,有助于推动药物研发朝着更高效、更精准的方向发展。