加速基于字符串生成的化学反应模型推理,助力工业应用

【字体: 时间:2025年03月11日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  研究人员为提升 Transformer 模型在合成规划中的适用性,提出推测解码等方法,加速了反应预测和逆合成推理。

  在有机化学合成领域,计算机辅助合成规划(Computer-Aided Synthesis Planning,CASP)是实现计算机辅助药物发现的核心技术之一。早期的 CASP 系统依赖手动编码规则,如今研究重点已转向人工智能驱动的方法。基于模板的单步模型虽有效,但无模板模型凭借其在单步逆合成和反应产物预测中的高精度,备受关注。其中,基于 Transformer 架构的条件自回归 SMILES(Simplified Molecular Input Line Entry System,简化分子线性输入系统)生成器表现最为出色,如分子 Transformer(Molecular Transformer,MT),它在反应预测和单步逆合成方面达到了最先进的准确率。然而,这类自回归模型却存在推理速度慢的问题,就像一辆性能卓越但速度迟缓的赛车,这一缺陷严重阻碍了其在工业 CASP 系统中的应用,就好比给赛车的轮子上了枷锁,使其无法在实际赛道上飞驰。
为了突破这一困境,来自 IDSIA、USI、SUPSI 等机构的研究人员 Mikhail Andronov、Natalia Andronova 等人开展了深入研究。他们的研究成果发表在《Journal of Cheminformatics》上。

研究人员采用的主要技术方法有:

  1. 推测解码(Speculative decoding):这是一种基于草稿验证思想的推理加速技术,在不改变模型架构和训练过程的前提下,使模型在一次前向传递中生成多个标记,从而加快输出。
  2. 基于 SMILES 的起草策略:利用化学反应中反应物和产物 SMILES 常包含许多共同子串的特点,从查询 SMILES 中提取多个子串作为草稿序列,提高草稿接受率。
  3. 推测束搜索(Speculative Beam Search,SBS):针对单步逆合成和产物预测中需要生成多个候选 SMILES 的问题,提出的一种加速束搜索解码的算法。

下面介绍具体的研究结果:

  1. 模型实现与验证:研究人员重新在 PyTorch Lightning 中实现了 MT 模型,其精度与依赖 OpenNMT 的原始 MT 模型相符,验证了实现的正确性。
  2. 产物预测
    • 贪心解码加速:在产物预测任务中,对 MT 模型采用贪心解码时,推测贪心解码在不同批量大小下比标准贪心解码快 1.18 - 3.53 倍。通过网格搜索确定了不同批量大小下的最佳草稿参数,且模型精度不受影响。
    • 束搜索加速:在产物预测任务中,束搜索时,SBS 比标准束搜索快 1.07 - 2.12 倍。虽然 SBS 不能保证与标准束搜索输出完全相同,但二者在准确性上差异可忽略不计。

  3. 单步逆合成
    • 不同束宽的束搜索:在单步逆合成实验中,使用 SBS 比标准束搜索快 1.53 - 2.3 倍,不过随着每个序列生成的输出数量增加,加速效果逐渐减弱。
    • 不同批量大小的束搜索:当批量大小和每个序列生成的假设数量固定时,SBS 在批量大小为 1 和 2 时比标准束搜索快,在批量大小为 4 和 8 时,通过采用 “智能草稿” 策略,SBS 可始终优于标准束搜索,加速比分别为 1.4 - 3.1 倍。且 SBS 在准确性上与标准束搜索相当。


在研究结论与讨论部分,研究人员提出的推测解码方法结合化学知识,有效加速了 MT 模型的推理过程。在单步逆合成和反应产物预测任务中,相比标准解码程序,处理测试集的速度提升了近三倍。同时,推测束搜索方法能够加速每个查询生成多个输出 SMILES 的过程。这些成果使得基于 SMILES 生成的无模板模型更适合用于计算机辅助合成规划系统等工业应用。不过,该方法也存在局限性,随着批量大小或每个序列生成的输出数量增加,其加速效果会减弱。但研究人员相信,通过更好的起草策略和其他推理加速技术,有望进一步提升其性能。这一研究为构建基于 Transformer 的 CASP 系统和反应预测助手提供了新的思路和方法,就像为有机化学合成领域的发展注入了新的活力,为未来的药物研发和化学合成带来了更多的可能性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号