TSMMG:开启多约束分子生成的新时代,为药物研发等领域赋能

【字体: 时间:2025年04月24日 来源:BMC Biology 4.4

编辑推荐:

  在人工智能用于药物发现(AIDD)领域,多约束分子生成面临挑战。研究人员开展基于师生大语言模型的多约束分子生成研究,构建 TSMMG 模型。结果显示该模型生成分子有效性超 99%,在多约束任务中表现优异。其为相关领域提供新思路。

  在生命科学和健康医学领域,药物研发始终是备受瞩目的焦点。随着人工智能技术的蓬勃发展,其在药物发现(AIDD)领域的应用也日益广泛,分子生成模型更是成为了探索新型治疗化合物的有力武器。传统的虚拟筛选方法是从现有分子库中筛选所需分子,而分子生成模型则能够直接创造出全新的分子,在优化先导化合物、开拓新的化学空间等方面发挥着关键作用,为新药研发带来了新的曙光。
然而,这条探索之路并非一帆风顺。在实际的药物研发过程中,寻找符合多种复杂约束条件的分子成为了巨大的挑战。这些约束条件涵盖了结合亲和力、分子疏水性(LogP)、定量估计药物相似性(QED)、合成可及性(SA)以及毒性等多个方面。以往的研究虽然在分子生成方面取得了一定进展,例如一些模型能够生成符合特定标准的分子,但这些方法普遍存在局限性。一方面,它们往往仅关注少数特定的分子属性,忽略了诸如分子亚结构、生物利用度和毒性等重要因素,限制了对化学空间的全面探索;另一方面,这些模型在应用于不同任务时,通常需要进行大量的微调,适应性较差,且模型设计复杂,在实际使用中困难重重。

为了突破这些困境,湖南大学信息科学与工程学院等机构的研究人员展开了深入的研究。他们致力于开发一种更高效、更灵活的多约束分子生成模型,旨在实现通过自然语言描述生成符合多种属性要求的分子,从而推动药物研发以及其他相关领域的发展。最终,他们成功构建了基于师生大语言模型的多约束分子生成(TSMMG)模型,并将研究成果发表在《BMC Biology》上。

研究人员在开展这项研究时,运用了多种关键技术方法。首先是基于知识蒸馏的方法构建数据集,他们利用先进的分子解析工具和模型(即 “教师” 模型)从公开的分子库中提取分子知识,并将其转化为自然语言文本,与对应的分子组成文本 - 分子对,以此作为训练数据。其次,TSMMG 模型采用了基于 Transformer 的解码器架构,先在大规模自然语言语料库上进行预训练,学习自然语言的统计模式和语言结构,再在构建的文本 - 分子对数据上进行微调,使其能够将自然语言描述准确映射到分子序列。此外,研究中还使用了多种评估指标,如有效性、唯一性、新颖性、多样性和成功率(SR)等,来全面评估模型的性能。

TSMMG 模型构建及任务设定


TSMMG 模型的构建过程如同搭建一座知识的大厦。研究人员先从公开的分子库中收集大量分子数据,借助各类 “教师” 模型,如能解析分子理化性质的 RDKit、预测 ADMET 性质的 admetSAR 以及预测亲和力的多种模型等,对这些分子进行全面分析,提取丰富的信息,包括结构细节、理化性质、与各种靶点的结合亲和力等,并将这些信息转化为自然语言描述,与分子一一配对。之后,“学生” 模型 TSMMG 登场,通过学习这些知识,建立起自然语言与分子语言之间的桥梁,从而具备根据自然语言描述生成相应分子的能力。

为了全面测试 TSMMG 模型的性能,研究人员精心设计了多约束任务,将其分为两类、三类和四类约束分子生成任务。这些任务涵盖了多种不同类型的单约束任务,比如指定功能基团(FG)、规定亲水性和疏水性水平(LogP)、设定定量估计药物相似性水平(QED)、明确合成可及性评分(SAs),以及生成对特定受体(如多巴胺 2 型受体 DRD2、糖原合酶激酶 - 3β GSK3)具有高亲和力的分子,还有涉及血脑屏障通透性(BBB)和人体小肠吸收(HIA)等 ADMET 性质的任务。通过不同单约束任务的组合,形成了复杂多样的多约束任务场景。

模型性能分析


经过一系列严谨的实验,TSMMG 模型展现出了卓越的性能。在生成分子的有效性方面,模型生成的分子能够严格遵循简化分子输入线输入系统(SMILES)的语法规则,在两类、三类和四类约束任务中,平均有效性率分别高达 99.87%、99.89% 和 99.87%,这意味着模型生成的分子在化学结构上大多是合理有效的。

从生成分子的唯一性来看,多数生成的分子具有独特性,在不同约束任务中的平均唯一性率分别为 90.27%、81.2% 和 81.89%。不过,与 DRD2 和 GSK3 相关的任务中,唯一性相对较低,这可能是由于训练集中功能基团(FG)的频率不一致,导致模型难以充分学习相应的分子空间。但总体而言,模型在不同任务中生成的分子大多具有明显差异。

在新颖性方面,模型生成分子的平均新颖性达到 92.79%、87.6% 和 87.87%,表明模型能够创造出许多在训练集中未出现过的新分子结构,为分子探索开辟了新的空间。多样性指标也显示,生成的分子在结构上差异显著,平均多样性评分分别为 90.47、89.3 和 89.37,体现了模型生成分子结构的丰富性。

最重要的是,模型在生成符合所有约束条件的分子方面表现出色,在两类、三类和四类约束任务中的平均成功率分别为 82.58%、68.03% 和 67.48%,有力地证明了 TSMMG 模型能够有效满足自然语言描述的各种要求,生成符合复杂多约束条件的分子。

功能基团(FG)及温度对模型性能的影响


研究人员还深入探究了功能基团(FG)对模型性能的影响。以 FG + DRD2 任务为例,由于训练集中 FG 频率的不一致,导致部分 FG 相关提示生成相同分子的情况较多,影响了任务的唯一性。但随着训练集中 FG 频率的增加,模型生成符合约束条件的新颖分子的能力增强。同时,研究发现不考虑 FG 匹配时的成功率(SR(nFG))比考虑 FG 匹配时更高,这表明增加训练集中的分子和 FG 数量,有望进一步提升模型性能。

此外,研究人员考察了温度对模型性能的影响。在大语言模型的推理过程中,温度是一个关键参数。较低温度意味着较低的随机性,而较高温度则赋予模型更大的自由度。实验结果显示,随着温度升高,模型生成有效分子的能力几乎不变,新颖性和多样性也保持稳定,但唯一性显著增加,成功率却明显下降。这意味着虽然升高温度能生成更多独特分子,但这些分子大多无法满足所有约束条件。

五约束分子生成案例研究及输入文本多样性测试


为了进一步验证模型在复杂场景下的能力,研究人员设计了一个五约束分子生成的案例研究。任务要求生成具有高药物相似性、良好合成可及性、血脑屏障通透性,且能同时结合前列腺素 E2 受体 EP2 亚型和前列腺素 E 受体 EP4 的分子。在训练过程中,模型并未接触过同时满足这五个条件的分子,甚至未见过同时满足两个条件的分子。然而,TSMMG 模型成功应对了这一挑战,生成了符合所有条件的分子。通过分子对接等实验验证,这些分子能够有效与受体结合,展示了模型在零样本测试中生成满足复杂多约束分子的强大能力。

研究人员还对 TSMMG 模型处理不同输入文本的能力进行了测试。由于 TSMMG 基于在自然语言数据集上预训练的 GPT - 2 模型,研究人员推测它能够理解自然语言的相似性。为此,他们设计了不同语言风格的提示模板进行实验。结果表明,即使提示有所变化,TSMMG 仍能在很大程度上生成符合要求的分子,体现了模型对多样化提示的一定耐受性。不过,模型对不同提示的泛化能力和生成准确分子的能力会因具体提示和任务而有所差异。

在研究结论与讨论部分,TSMMG 模型的重要意义得到了充分体现。该模型通过知识蒸馏,将专业分子模型的属性预测能力转移到大型语言模型中,实现了从分子筛选到分子生成的转变,极大地拓展了分子探索空间。它不仅在药物发现领域展现出巨大潜力,还能为其他分子相关领域,如材料发现等提供重要的参考和借鉴。

同时,TSMMG 模型与 “教师” 模型之间形成了一种良性的互动关系。随着 “教师” 模型能力的提升,TSMMG 的性能也将进一步增强;而 TSMMG 生成的新颖分子又可以反过来优化 “教师” 模型,促进双方能力的持续进步。未来,研究人员计划利用更先进的 “教师” 模型,进一步拓展 TSMMG 生成分子的属性范围,提升其性能,为生命科学和健康医学领域的发展注入新的活力。

综上所述,TSMMG 模型的出现为多约束分子生成提供了一种创新且有效的解决方案,为药物研发和其他相关领域带来了新的希望和发展方向,在生命科学和健康医学领域具有广阔的应用前景和重要的研究价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号