编辑推荐:
在药物研发中,hit finding 过程昂贵且漫长。研究人员开展 “Evaluation of DNA encoded library and machine learning model combinations for hit discovery” 的研究,用三种 DEL 和五种 ML 模型筛选两个靶点,发现 HG1B DEL 训练的模型表现佳,为药物发现提供新思路。
在药物研发的早期阶段,寻找具有特定活性、能与目标蛋白结合的小分子化合物(hit finding)是至关重要的一步。然而,传统的 hit finding 方法既昂贵又耗时,这极大地阻碍了新药研发的进程。为了加快和优化这一过程,研究人员不断探索新的技术和方法。DNA 编码文库(DEL)技术应运而生,它能够以集合的方式筛选数百万到数十亿的化合物,相比传统方法,具有速度快、成本低的优势。同时,DEL 筛选产生的大量结合和非结合数据,为机器学习(ML)模型的训练提供了丰富素材,使得利用 ML 模型进行超高通量虚拟筛选成为可能。
在此背景下,来自 Broad Institute of MIT and Harvard 等机构的研究人员开展了一项重要研究。他们旨在探究不同 DEL 组成和基于 DEL 数据训练的不同 ML 模型,对 DEL + ML 范式用于 hit discovery 的结果有何影响。研究人员选择了两个特征明确的药物靶点 Casein kinase 1α/δ(CK1α/δ),针对三种不同大小和化学组成的 DEL(MilliporeSigma DEL、HitGen OpenDEL? 和 DOS-DEL)进行筛选。随后,利用筛选结果训练了五种不同的 ML 模型,包括传统模型(如 Random Forest)和深度神经网络模型(如 Multi-Layer Perceptron 和 ChemProp)。
该研究发表在《npj Drug Discovery》上,具有重要的意义。它为 DEL + ML 范式在 hit discovery 中的应用提供了深入见解,强调了训练数据中化学多样性和 ML 模型泛化性相较于准确性的重要性。同时,研究人员公开了研究结果,为后续的药物研发和类似研究提供了宝贵的资源和参考。
在研究方法上,研究人员主要运用了以下关键技术:
- DEL 筛选:对三种 DEL 在五种不同条件下进行筛选,包括空白对照、单独的 CK1α 或 CK1δ 以及它们与抑制剂结合的情况,以识别不同类型的结合物。
- 数据处理与模型训练:对筛选数据进行处理,根据富集分数或效应大小确定正数据集(orthosteric DEL binders)和负数据集,用于训练 ML 模型,并通过五折交叉验证调整模型参数。
- 模型评估与验证:使用已知结合物的验证集和包含 140,000 种化合物的盲评估集来评估模型性能,通过生物物理结合测定(如表面等离子共振,SPR)验证预测的结合物和非结合物。
下面介绍具体的研究结果:
- DEL + ML 工作流程:该工作流程包含 DEL 筛选、数据准备、模型开发、命中预测和实验验证五个模块。研究人员用三种 DEL 对 CK1α/δ 进行筛选,根据筛选结果确定 orthosteric binders 等不同类型的结合物,并用于训练 ML 模型123。
- ML 模型性能:不同 DEL 训练的 ML 模型在 “in-DEL hold-out test” 和 “independent validation” 中的表现各异。HG1B DEL 训练的模型在非 DEL 验证集中能正确识别大多数结合物,表明其泛化能力强;ChemProp 模型在所有测试中表现最佳,能更准确地预测结合物4。
- 预测和验证命中分析:从盲评估集中选择化合物进行实验验证,发现大多数预测结合物具有类药性质,HitGen DEL 训练的模型命中率最高。同时,化学空间覆盖分析表明,不同 ML 模型和 DEL 对预测结合物的筛选有重要影响567。
- DEL + ML 管道的命中率:实验验证结果显示,总体命中率为 10%,HG1B DEL 训练的模型确认命中率最高,ChemProp 模型在识别确认结合物方面表现最优87。
- 确认结合物分析:确认的结合物分子量在 400 - 500 Da 之间,多数符合 Lipinski 规则,具有不同的结合亲和力,部分结合物达到纳摩尔级结合力9。
研究结论和讨论部分指出,化学多样性、训练数据的正负平衡、DEL 结合物与非 DEL 结合物的相对接近程度以及 DEL 分子的类药性质,对 ML 模型的泛化性、稳健性和 DEL + ML 管道的命中率有积极影响。此外,神经网络模型(如 MLP 和 ChemProp)在预测准确性上优于传统 ML 模型。研究人员还发现,筛选 DEL 数据集和预测结合物以获得更多类药化合物,有助于提高命中率。
这项研究展示了 DEL 筛选数据与 ML 模型结合用于发现新型类药命中的有效性,为药物研发提供了新的策略和方法。其开源的代码和数据,也为后续研究奠定了基础,推动了药物研发领域的发展。