编辑推荐:
在药物设计领域,传统基于字符串的分子表示法如 SMILES 和 SELFIES 存在局限性。研究人员开展了 fragSMILES 相关研究,它能有效编码片段和手性信息。结果显示其在生成分子时表现出色,这为化学语言建模等提供了新方向。
在药物研发的奇妙世界里,分子就像一个个神秘的 “小精灵”,它们的结构和特性决定了药物的效果。随着科技的发展,生成式模型给全新药物设计(de novo drug design)带来了革命性变化,让按需制造具有特定理化和药理特性的分子成为可能。而基于字符串的分子表示法,如简化分子输入线输入系统(SMILES,Simplified Molecular Input Line Entry System )和自引用嵌入字符串(SELFIES,Self - Referencing Embedded Strings),在这一过程中发挥了关键作用,它们能编码原子和键的信息,还易于生成。
但这些 “原子级” 字符串表示法并非完美无缺。在捕捉分子手性(chirality)信息方面,它们存在不足,这就好比在拼图时,有些关键的拼图碎片形状没找准,会影响对整个拼图(分子结构)的准确理解。而且,基于这些表示法设计出的分子,在实际合成时可能面临困难,就像按照设计图造房子,却发现有些材料和结构很难实现。正是为了解决这些问题,来自意大利巴里大学(Dipartimento di Farmacia - Scienze del Farmaco, Università degli Studi di Bari Aldo Moro)和荷兰埃因霍温理工大学(Institute for Complex Molecular Systems and Eindhoven Artificial Intelligence Systems Institute, Department of Biomedical Engineering, Eindhoven University of Technology)等机构的研究人员展开了深入研究。
他们提出了一种名为 fragSMILES 的新型基于片段的分子字符串表示法。这一研究成果发表在《Communications Chemistry》上,具有重要意义。它独立报告片段及其 “断裂” 键,能对片段进行规范编码且无冗余,在序列长度和词汇量之间达到了理想平衡,为全新药物设计和化学空间探索提供了有力工具,还能提升生物活性预测等药物研发相关任务的效率。
研究人员在开展研究时,运用了多种关键技术方法。首先,通过分子图还原(graph reduction)技术,将分子图简化,把选定的原子和键合并为单个片段,保留关键结构和功能信息,再转化为 fragSMILES 表示法。其次,利用循环神经网络(Recurrent Neural Networks,RNNs )结合长短期记忆(Long Short Term Memory,LSTM)细胞,在多个数据集上进行训练和验证,评估 fragSMILES 在全新分子设计中的性能。此外,还使用了多种量化指标,如计算生成分子的有效性(validity)、唯一性(uniqueness)、新颖性(novelty),以及弗雷歇化学网络距离(Fréchet ChemNet Distance,FCD)、亲脂性(logP)、合成可及性(Synthetic Accessibility,SA)、药物相似性定量估计(Quantitative Estimation of Drug - likeness,QED)和分子量(molecular weight,MW)等,来全面评估生成分子的特性。
研究结果
- fragSMILES 的表示:fragSMILES 通过分子图还原生成,其过程包括分解、标记、图还原和转换为字符串等步骤。它的语法规则明确,能准确表示分子片段、连接原子和手性中心。与 SMILES 不同,fragSMILES 对手性中心的标注一致,不受图遍历顺序影响,且同一分子可生成多个 fragSMILES 用于数据增强(data augmentation)。
- 碎片化和标记化规则的影响:研究对比了基于切割所有外环单键和所有可旋转键的两种碎片化规则对 fragSMILES 的影响。发现切割所有外环单键生成的标记类型词汇量更紧凑(5869 vs 13,035),能减少冗余,在表示分子所需标记数量和标记类型数量间达到较好平衡,因此被选为默认碎片化策略。同时,t - SMILES 由于序列长度问题不适合片段标记化。
- 分子信息的紧凑编码:fragSMILES 基于简化分子图的片段进行标记化,相比 SMILES 和 SELFIES,它能用更少的元素(“标记”)编码分子信息。在 ZINC - 250K 数据库分析中,fragSMILES 平均长度为 17 个标记,明显短于其他两者,且高频出现的标记主要是单个碳原子片段和连接标签,说明它能捕捉非冗余标记。
- fragSMILES 的全新分子设计:研究人员将 fragSMILES 与 SMILES、SELFIES 和 t - SMILES 进行对比,在 MOSES 基准平台上,使用 RNNs 和 LSTM 对模型进行训练和评估。结果显示,fragSMILES 在生成分子的有效性和唯一性方面优于 SMILES,在化学和生物特性上与参考分子更为相似,在生成具有理想理化和生化特性的分子方面表现出色,是化学空间探索和设计理想分子的良好平衡选择。
- fragSMILES 的化学空间探索
- fragSMILES 增强:fragSMILES 与其他表示法一样可进行数据增强,通过从简化图的不同节点开始遍历,能得到同一分子的多个表示。研究表明,数据增强可提高全新设计的质量,fragSMILES 生成的分子在化学和生物特性上与参考分子更相似。
- 捕捉手性:分析各表示法捕捉手性的能力时发现,fragSMILES 能产生更多手性标注明确且正确的分子,克服了现有分子字符串的局限性。
- 探索新支架:对生成的新分子进行支架分析,SELFIES 在生成独特和新颖支架方面表现最佳。fragSMILES 在词级标记化时,虽生成新支架数量相对较少,但能更有效地捕捉训练集中的支架,并通过重组不同环状元素生成真正新颖的核心,这对全新分子设计意义重大,可确保生成的分子更具所需化学性质、化学稳定性和合成可行性。
在结论和讨论部分,fragSMILES 展现出诸多优势。它为分子表示带来了新的思路,克服了传统表示法的一些缺陷。在全新药物设计中,它能更好地探索化学空间,生成具有理想性质的分子。在化学语言建模领域,fragSMILES 有望推动其发展,不仅用于全新分子设计,还可改进反应性质预测、分子性质预测、合成规划和生物活性预测等任务。通过设置不同的标记化规则,fragSMILES 能有效探索化学空间的未知区域,未来结合针对词级处理的神经网络架构,将进一步挖掘基于片段表示法在化学人工智能生成中的潜力,为药物研发和分子科学研究开辟新的道路。