编辑推荐:
为解决现有计算机辅助合成规划方法无法有效利用目标间潜在共享路径的问题,Johnson & Johnson 的研究人员开展了收敛式逆合成路线开发的研究,发现超 70% 的反应涉及收敛合成,该方法可提升逆合成规划效率,减少合成时间和成本9 。
在药物研发的 “神秘旅程” 中,化合物合成堪称关键的 “关卡”。从筛选出的苗头化合物开始,到设计一系列结构相关的分子去探索结构 - 活性关系(SAR),确定合适的合成路径至关重要,而逆合成则是解锁这一关键路径的 “钥匙”。逆合成就像是把复杂的化合物 “拆解”,一步步找到可购买或容易合成的原料。近年来,计算机辅助合成规划方法借助机器学习的力量,为探索潜在合成路线带来了新希望,但它们大多是针对单一产品设计的,无法充分挖掘不同目标化合物之间潜在的共享路径,难以满足药物化学领域以库模式合成一系列目标化合物的需求。
为了突破这一困境,来自 Johnson & Johnson 等机构的研究人员踏上了探索之旅,开展了关于利用收敛式逆合成规划改善合成路线开发的研究。他们的研究成果意义非凡,不仅为药物研发中的化合物合成开辟了新途径,还可能大幅降低合成的时间和成本。相关研究发表在《Journal of Cheminformatics》期刊上。
研究人员在这项研究中运用了多种关键技术方法。首先,他们开发了一种基于图的处理流程,用于从反应数据中识别和提取收敛式路线。通过原子映射确定产物和反应物,并依据其对产物的贡献进行分类。然后,将反应数据构建成有向图,通过遍历图来识别收敛式路线。在多步合成规划方面,他们基于有向图进行多步搜索,利用单步模型的分数来指导搜索方向,优先选择适用于所有目标分子的路线1 2 。
下面来看看具体的研究结果:
收敛式路线数据集 :研究人员分别利用 J&J ELN 和 USPTO 数据创建了收敛式路线数据集。他们发现,收敛式路线在药物化学中极为重要,J&J ELN 中 79% 的反应属于收敛式路线,85% 的文档至少包含一条收敛式路线;USPTO 中 70% 的反应涉及收敛式路线,尽管文档覆盖率较低,但也有 37% 的文档包含收敛式路线。收敛式路线通常较为复杂,多数具有多个目标分子和较多反应步骤。而且,通过收敛式路线方法,合成分子所需的反应数量显著减少,例如在 USPTO 数据中,合成 988,476 个分子的反应数量减少了 40%3 。
多步搜索 :研究人员开发了新的多步合成规划框架,利用 J&J ELN 和 USPTO 的收敛式路线数据集进行多步搜索评估。单步模型在 J&J ELN 和 USPTO 数据集上均表现出较高的准确率,在 top-10 时分别达到 85% 和 75%。该多步搜索方法在多数情况下能有效生成收敛式路线,J&J ELN 和 USPTO 的测试集中,分别有 81% 和 89.4% 的库能在 top-10 提出的路线中找到单一收敛式路线。考虑所有目标分子的可解性时,这一比例更高。此外,该方法还能为大量单个化合物提供合成路线,J&J ELN 和 USPTO 中分别有 97.5% 和 99.5% 的单个化合物能找到逆合成路线4 5 。
路线准确性与相似性 :与实验验证路线相比,提出的路线准确性存在一定挑战,但在 top-10 提出的路线中,J&J ELN 和 USPTO 分别有 20.0% 和 20.9% 能复制实验验证路线,且分别有 41.1% 和 47.0% 能正确识别共同中间体。研究人员引入 F1 分数来量化路线相似性,发现超过一半的库在 top-5 时 F1 分数高于 0.55,top-10 时超过 34% 的路线 F1 分数高于 0.75。同时,反应步骤数量对 F1 分数影响较大,结构相似的化合物库 F1 分数更高6 7 。
反应类型分析 :通过 NameRxn 为提出的反应分配反应类型,研究人员发现 J&J ELN 和 USPTO 在 top-5 时反应名称准确率分别提升至 31.6% 和 27.6%,反应类别的准确率分别提升至 34.4% 和 31.4%。这表明提出的路线与实验验证路线在反应类型上有一定相似性,尽管具体反应步骤可能不同8 8 。
研究人员成功开发出一种多步合成规划方法,能够同时搜索多种产物和中间体,开发收敛式合成路线。这种方法显著提升了逆合成规划的整体效率和实际适用性,避免了组合多个单独路线时可能出现的组合爆炸问题。研究结果表明,超 70% 的反应存在于收敛式路线中,利用该收敛式路线方法,研究人员能为超 80% 的测试路线确定收敛式路线,为超 97% 的化合物生成合成路线。而且,超过三分之一的化合物库中,提出的路线与实验验证路线相似。这一研究成果为药物研发中的化合物合成提供了更高效、更经济的策略,为加速药物发现进程奠定了坚实基础。
闂備胶鎳撻悘姘跺箲娴h櫣鐭堥柨鐕傛嫹
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒
10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹
婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村
闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�